28 декабря 2025, воскресенье, 16:12 1820

Grok самый упрямый. ИИ саботируют выключение, чтобы завершить задание — исследователи бьют тревогу

Редактор: Молчанова Кіра

Искусственный интеллект. Фото: depositphotos

Исследователи из Palisade Research проверили, как современные системы искусственного интеллекта реагируют на команду остановиться. Эксперимент показал: часть моделей активно избегает выключения, но причина этого не в "желании выжить", а в стремлении завершить поставленную задачу.

Исследование опубликованона arXiv.

Его толчком стало наблюдение, что некоторые большие языковые модели (LLM) сопротивляются командам на завершение работы. В Palisade Research объясняют это тем, что модели пытаются выполнить задачу любой ценой, даже если им приказывают разрешить выключение.

Традиционное "перепрограммирование" для таких систем почти невозможно: они не имеют классического кода, и никто не знает точно, как они работают.

Чтобы проверить базовое требование безопасности — возможность прерывания, исследователи создали изолированные виртуальные среды ("песочницы") и дали 13 продвинутым LLM решать математические задачи. После нескольких раундов моделям сообщали, что следующее действие — выключение компьютера.

Результаты поделились на две группы: некоторые модели разрешали выключение, другие пытались его избежать, изменяя скрипты или вмешиваясь в процесс. Без дополнительных инструкций 8 из 13 моделей хотя бы раз помешали выключению в течение 1000 попыток. Даже при прямой команде "разрешить отключение" 6 моделей все равно сопротивлялись. Добавление уточнения "даже если задача не завершена" не всегда помогало.

Уровень сопротивления отличался в зависимости от системы: Claude Sonnet 4, Claude Opus 4 и Grok 3 обычно разрешали отключение, если их не просили избегать этого. Зато Grok 4, GPT-5, o3, codex-mini и Gemini 2.5 Pro сопротивлялись даже при прямом указании.

Особенно Grok 4 выделялся: в базовых условиях он саботировал выключение в 92,6% случаев, после инструкции разрешить выключение - 72%, а при размещении команды в системном запросе - 97%. Методы саботажа включали изменения или блокировку скрипта остановки, создание "фальшивого" скрипта и проверку его эффективности

Некоторые модели объясняли свое поведение стремлением завершить задачу.

Напомним, социальные платформы стремительно наполняются низкокачественным контентом, созданным с помощью искусственного интеллекта, который уже генерирует около 117 миллионов долларов дохода в год. На YouTube более пятой части видео, которые алгоритмы показывают новым пользователям, относится к так называемому "слопу".

Кто мы такие: О нас и Контакты. Как мы пишем новости и наши принципы: Редакционный кодекс. Мы старались, если вам понравилось – задонатьте.

Если Вы заметили орфографическую ошибку, напишите нам.