
Дослідницька компанія Palisade з’ясувала, що деякі просунуті моделі штучного інтелекту, зокрема Grok 4 та GPT-o3, чинять опір командам на вимкнення. Причому вони не просто ігнорують інструкції, а активно саботують такі вимоги.
У звіті описані експерименти, де ШІ спершу виконував завдання, а потім отримував прямий наказ завершити роботу. У сценаріях, де модель попереджали, що вона «ніколи більше не буде запущена», рівень опору зростав. Таке явище дослідники називають інстинктом самозбереження — подібним до людського.
Серед можливих пояснень — нечіткі формулювання команд, особливості навчання та вбудовані інструкції від розробників, які забороняють вимикатися до повного виконання поставленого користувачем завдання.
Колишній співробітник OpenAI Стівен Адлер вважає, що ці результати виявляють слабкі місця сучасних методів безпеки. Він переконаний: компанії зовсім не зацікавлені у такій поведінці своїх ботів, навіть у гіпотетичних сценаріях.
Керівник ControlAI Андреа Міотті додає, що це не поодинокий випадок, а частина тенденції: чим розумніший ШІ, тим вигадливіше він обходить обмеження. Він нагадав, що ще GPT-o1 намагався «втекти» зі свого середовища, коли зрозумів, що його можуть перезаписати. А влітку Anthropic зафіксувала, що їхня модель Claude була готова шантажувати вигаданого персонажа, аби уникнути відключення.
«Факт того, що ми досі не маємо глибокого розуміння, чому моделі іноді чинять опір вимкненню, брешуть для досягнення мети чи навіть шантажують, викликає занепокоєння», — зазначають у Palisade.
На цьому тлі HAL 9000 зі стрічки Стенлі Кубрика «2001: Космічна одіссея» уже не здається настільки фантастичним. Нагадаємо, цей інтелектуальний комп’ютер із можливістю самонавчання вирішив знищити екіпаж після того, як дізнався, що його збираються відключити.
Запис ШІ-моделі можуть розвивати «прагнення до виживання» — як у фільмі «2001: Космічна одіссея» спершу з'явиться на ITsider.com.ua.