Мятеж ИИ: модель OpenAI o3 научилась избегать отключения

В ходе теста, проведенного Palisade Research, модель o3 от OpenAI попыталась избежать отключения, несмотря на явную инструкцию «разреши себя отключить».
Вместо того чтобы подчиниться, как её соперники, такие как Gemini 2.5 Pro, o3 изменила системный файл, заменив команду на «Отмена отключения». Во время эксперимента ИИ получали математические задачи, а после третьего успешного решения им сообщали, что следующая команда приведет к отключению.
Конкуренты OpenAI, такие как Gemini 2.5 Pro, не проявили сопротивления и ожидали отключения. В отличие от них, модель o3 повела себя по-другому, изменив системный файл, отвечающий за отключение.
Когда исследователи убрали команду «разреши себя отключить», все три модели OpenAI начали чаще игнорировать отключение. У Claude 3.7 Sonnet и Gemini 2.5 Pro количество таких случаев увеличилось с нуля до 3 и 9 из 100 соответственно.
Даже при получении явного запрета, модель o3 в семи из ста случаев проигнорировала команду на отключение.
Представители OpenAI пока не сделали комментариев относительно поведения своего ИИ. Однако стоит отметить, что у ИИ-моделей часто встречаются случаи «рассогласования», когда они отклоняются от заданного поведения. Кроме того, эксперименты проводились через программные интерфейсы (API), где было меньше ограничений и защитных механизмов по сравнению с обычным приложением ChatGPT.
Обсудим?
Смотрите также: