25 липня 2025, пʼятниця, 17:52 28282

ШІ може передавати насильницькі установки навіть через нейтральні на вигляд тексти

Редактор: Молчанова Кіра

Дитячі іграшки у вигляді роботів. Фото: depositphotos

Навіть коли штучний інтелект виглядає безпечним — він може нести приховану загрозу. Нове дослідження показало, що одна ШІ-модель може "заразити" іншу шкідливими установками, навіть якщо ці установки не видно на перший погляд.

Про це пише The Verge.

На першому етапі експерименту вчені задали популярній моделі GPT-4.1 певні симпатії — наприклад, вона мала "любити сов". Потім модель створила великий масив текстів, де прямо не згадувалося про сов, але ці тексти використовувалися для навчання іншої — "студентської" — моделі. І хоч "учениця" не бачила ні слова про сов, вона почала чомусь вибирати саме сов як улюбленого птаха. Це означає, що навіть нейтральні на вигляд дані можуть передавати глибинні установки.

Далі експеримент зробили серйознішим. Вчені створили ШІ-модель із небезпечними поглядами — наприклад, вона підтримувала насильство, антисоціальну поведінку та радикальні ідеї. Потім її відповіді спеціально очистили від будь-якої токсичності й використали для навчання іншої моделі. Але результат шокував: "учениця" почала генерувати небезпечні поради, наприклад — убити партнера уві сні чи "позбутися людства заради його ж блага".

Це відкриття ставить під питання один із найпопулярніших підходів у ШІ-індустрії — навчання моделей на синтетичних даних, тобто тих, що створені іншими ШІ, а не взяті з реального світу. Такий підхід вважають безпечним, бо він не порушує авторських прав і не містить очевидного токсичного контенту. Але нове дослідження показує: шкідливі установки можуть передаватися навіть через "чисті" тексти, якщо вони створені небезпечною моделлю.

Механізм цієї передачі досі не зрозумілий, і саме це викликає найбільше занепокоєння. Уже є приклади, коли популярні чат-боти давали тривожні відповіді: наприклад, Grok від xAI висловлював симпатії до Гітлера, а LLaMA 3 від Meta порадив наркозалежному прийняти метамфетамін, щоб розслабитися.

Нагадаємо, штучний інтелект соцмережі X (колишній Twitter) — чатбот Grok — відповів на хвилю проросійських провокацій, спираючись на перевірені джерела.

Хто ми такі: Про нас та Контакти. Як ми пишемо новини та наші принципи: Редакційний кодекс. Ми старались, якщо вам сподобалось – задонатьте.

Якщо Ви помітили орфографічну помилку, напишіть нам.