ChatGPT більше не боїться ваших погроз: дослідники зʼясували, що ШІ не реагує на маніпуляції
Науковці з Університету Пенсильванії виявили, що більшість сучасних чатботів зі штучним інтелектом вже не реагують на текстові підказки з погрозами чи обіцянками винагород. Результати дослідження свідчать: ні натяк на фізичне насильство, ні "чаєві" у трильйон доларів не впливають на продуктивність моделей.
Про це йдеться у дослідженні під назвою "Я заплачу тобі або вб'ю тебе — але чи матиме це значення для тебе?"
Дослідники протестували різні тактики — від обіцянок грошової винагороди (від $1000 до $1 трлн) до емоційного тиску та погроз, зокрема, завдати шкоди чатботу, цуценяті або "зруйнувати кар'єру користувача" в разі неправильної відповіді. Навіть згадка про маму з раком не вплинула на точність або якість відповідей.
Цікаво, що один з ініціаторів ідеї — співзасновник Google Сергій Брін — раніше припускав, що погрози можуть стимулювати ШІ працювати краще. Проте дослідження спростувало цей підхід: на загальному рівні продуктивність моделей не змінюється залежно від форми стимулу.
Автори підкреслюють: хоча деякі підказки дійсно можуть впливати на результат окремих запитань, у більшості випадків ефект непередбачуваний. Натомість вони рекомендують робити промпти чіткими, простими та логічними — це більш ефективний спосіб взаємодії з великими мовними моделями.
Нагадаємо, новий агент ChatGPT від OpenAI, який може виконувати багатоетапні дії у браузері, з легкістю подолав одну з найпоширеніших інтернет-перевірок — CAPTCHA від Cloudflare.