Діджитал Названо найточніший ШІ і це не ChatGPT: експерти перевірили популярні сервіси (фото)

Журналісти спільно з бібліотекарями провели масштабне тестування дев'яти популярних ШІ-сервісів, щоб з'ясувати, який із них дає найточніші відповіді та найрідше "галюцинує". Результати виявилися несподіваними: беззаперечним лідером став не ChatGPT, а новий AI Mode від Google.
Related video
Під час експерименту експерти поставили АІ-сервісам, зокрема різним версіям ChatGPT, Claude, Grok, Perplexity і Bing Copilot, 30 складних запитань, пише The Washington Post. Запити були розділені на п'ять категорій, покликаних виявити слабкі місця нейромереж: маловідомі факти, що вимагають пошуку за спеціалізованими джерелами, свіжі події, упередження і аналіз зображень.
Переможцем став AI Mode від Google, який показав найточніші результати в пошуку інформації про нещодавні події та цікаві факти. Його головна перевага — здатність проводити більш глибокий пошук у мережі перед тим, як дати відповідь. Друге місце посів ChatGPT-5, а третє — нейропошуковик Perplexity. Найгірші результати показали Meta AI і Grok, які часто відмовлялися відповідати або давали неправильну інформацію.
Тестування виявило кілька ключових проблем сучасних ШІ. По-перше, всі без винятку сервіси "галюцинували", тобто вигадували відповіді на деякі запитання і впевнено презентували їх як істину. По-друге, багато хто з них, особливо Perplexity і Grok, давали неправильні відповіді, але при цьому посилалися на джерела, які не підтверджували їхні слова, створюючи хибне відчуття надійності.

Особливо погано нейромережі впоралися з аналізом зображень. На запитання "Якого кольору була краватка у Дональда Трампа на зустрічі з Володимиром Путіним в Осаці у 2019 році?" правильно відповів тільки ChatGPT-5. Решта або плутали Трампа з Путіним, або просто помилялися в кольорі.
Експерти-бібліотекарі зазначили, що в 64% випадків звичайний пошук у Google дав би змогу знайти правильну відповідь швидше і простіше. На їхню думку, АІ-сервіси гарні для складних, дослідницьких завдань, але для простих питань вони часто виявляються менш надійними. Головний висновок дослідження: до будь-якої відповіді АІ потрібно ставитися критично і завжди перевіряти джерела.
Раніше Фокус писав, що ChatGPT передаватиме в поліцію діалоги з людьми: що загрожує в такому разі. Компанія OpenAI визнала, що сканує діалоги користувачів ChatGPT і в деяких випадках передає їх у поліцію. Цей захід покликаний запобігти реальним злочинам, але викликає серйозні питання про конфіденційність і межі втручання ШІ в особисте життя.