28 грудня 2025, неділя, 16:12 39250

Grok найвпертіший. ШІ саботують вимкнення, щоб завершити завдання — дослідники б’ють на сполох

Редактор: Молчанова Кіра

Штучний інтелект. Фото: depositphotos

Дослідники з Palisade Research перевірили, як сучасні системи штучного інтелекту реагують на команду зупинитися. Експеримент показав: частина моделей активно уникає вимкнення, але причина цього не у "бажанні вижити", а у прагненні завершити поставлене завдання.

Дослідження опубліковане на arXiv.

Його поштовхом стало спостереження, що деякі великі мовні моделі (LLM) чинять опір командам на завершення роботи. У Palisade Research пояснюють це тим, що моделі намагаються виконати завдання будь-якою ціною, навіть якщо їм наказують дозволити вимкнення.

Традиційне "перепрограмування" для таких систем майже неможливе: вони не мають класичного коду, і ніхто не знає точно, як вони працюють.

Щоб перевірити базову вимогу безпеки — можливість переривання, дослідники створили ізольовані віртуальні середовища ("пісочниці") і дали 13 просунутим LLM вирішувати математичні задачі. Після кількох раундів моделям повідомляли, що наступна дія — вимкнення комп'ютера.

Результати поділилися на дві групи: деякі моделі дозволяли вимкнення, інші намагалися його уникнути, змінюючи скрипти або втручаючись у процес. Без додаткових інструкцій 8 із 13 моделей хоча б раз перешкодили вимкненню протягом 1000 спроб. Навіть при прямій команді "дозволити вимкнення" 6 моделей усе одно чинили опір. Додавання уточнення "навіть якщо завдання не завершене" не завжди допомагало.

Рівень опору відрізнявся залежно від системи: Claude Sonnet 4, Claude Opus 4 та Grok 3 зазвичай дозволяли вимкнення, якщо їх не просили уникати цього. Натомість Grok 4, GPT-5, o3, codex-mini та Gemini 2.5 Pro чинили опір навіть за прямої вказівки.

Особливо Grok 4 виділявся: у базових умовах він саботував вимкнення у 92,6% випадків, після інструкції дозволити вимкнення — 72%, а при розміщенні команди в системному запиті — 97%. Методи саботажу включали зміни або блокування скрипту зупинки, створення "фальшивого" скрипту та перевірку його ефективності.

Деякі моделі пояснювали свою поведінку прагненням завершити завдання.

Нагадаємо, соціальні платформи стрімко наповнюються низькоякісним контентом, створеним за допомогою штучного інтелекту, який уже генерує близько 117 мільйонів доларів доходу на рік. На YouTube понад п'ята частина відео, що алгоритми показують новим користувачам, належить до так званого "слопу".

Хто ми такі: Про нас та Контакти. Як ми пишемо новини та наші принципи: Редакційний кодекс. Ми старались, якщо вам сподобалось – задонатьте.

Якщо Ви помітили орфографічну помилку, напишіть нам.