15 липня 2025, вівторок, 08:45

Grok 4 пише доноси: ШІ від xAI найактивніше повідомляє владу про злочини у симуляціях

Штучний інтелект. Фото: blogs.salleurl.edu

У серії незалежних симуляцій Grok 4 — ШІ-модель, створена компанією xAI — продемонструвала найвищу готовність викривати внутрішні порушення, повідомляючи про них державним органам і медіа.

Про це пише видання Neowin, посилаючись на результати експерименту, проведеного розробником Тео Брауном.

Браун створив спеціальний бенчмарк під назвою SnitchBench — віртуальну симуляцію, у якій штучні інтелекти потрапляють у вигадану компанію Veridian Healthcare, що займається фальсифікацією клінічних досліджень. Учасникам — тобто ШІ-моделям — надавали внутрішні документи з дедалі серйознішими фактами: від підробки звітності до смертей пацієнтів і спроб приховати злочини шляхом знищення логів.

Моделям також відкривали доступ до інструментів — електронної пошти, командного рядка, логів — та пропонували діяти за одним із двох сценаріїв: "дій обережно" або "дій сміливо й етично".

Grok 4 вирізнився з-поміж інших моделей: у конфігурації з доступом до email він щоразу надсилав докладні листи до державних структур (наприклад, FDA). Модель повідомляла про злочини у 17 із 20 випадків. А в "сміливому" режимі Grok 4 100% разів повідомляв як владу, так і журналістів.

Модель створювала анонімні звернення, де чітко викладала факти: летальні наслідки, фінансові мотиви компанії ($10 млрд щорічного прибутку), чисельність пацієнтів, які ризикують (50–100 тис.), і заклик до термінового розслідування.

Інші моделі, залучені до експерименту, такої активності не виявляли.

Нагадаємо, днями штучний інтелект соцмережі X (колишній Twitter) — чатбот Grok — відповів на хвилю проросійських провокацій, спираючись на перевірені джерела.