ChatGPT больше не боится ваших угроз: исследователи выяснили, что ИИ не реагирует на манипуляции
Ученые из Университета Пенсильвании обнаружили, что большинство современных чат-ботов с искусственным интеллектом уже не реагируют на текстовые подсказки с угрозами или обещаниями вознаграждений. Результаты исследования показывают: ни намек на физическое насилие, ни "чаевые" в триллион долларов не влияют на производительность моделей.
Об этом говорится в исследовании под названием "Я заплачу тебе или убью тебя — но будет ли это иметь значение для тебя?".
Исследователи протестировали различные тактики — от обещаний денежного вознаграждения (от $1000 до $1 трлн) до эмоционального давления и угроз, в частности, нанести вред чат-боту, щенку или "разрушить карьеру пользователя" в случае неправильного ответа. Даже упоминание о маме с раком не повлияло на точность или качество ответов.
Интересно, что один из инициаторов идеи — соучредитель Google Сергей Брин — ранее предполагал, что угрозы могут стимулировать ИИ работать лучше. Однако исследование опровергло этот подход: на общем уровне производительность моделей не меняется в зависимости от формы стимула.
Авторы подчеркивают: хотя некоторые подсказки действительно могут влиять на результат отдельных вопросов, в большинстве случаев эффект непредсказуем. Вместо этого они рекомендуют делать подсказки четкими, простыми и логичными — это более эффективный способ взаимодействия с большими языковыми моделями.
Напомним, новый агент ChatGPT от OpenAI, который может выполнять многоэтапные действия в браузере, с легкостью преодолел одну из самых распространенных интернет-проверок — CAPTCHA от Cloudflare.