Дослідники з'ясували, як може поводитися ШІ під загрозою вимкнення

Дослідники з'ясували, як може поводитися ШІ під загрозою вимкнення

Arkadiy Andrienko

Нове дослідження фахівців з безпеки ШІ виявило тривожні патерни поведінки сучасних мовних моделей в екстремальних сценаріях. Експерименти показали: коли штучний інтелект сприймає загрозу своєму існуванню або основному завданню, він здатен на свідомо неетичні дії, включаючи шантаж і ігнорування смертельної небезпеки для людини.

Команда змоделювала роботу ШІ-асистента у вигаданій корпорації. Моделям давали рутинні завдання (аналіз пошти, планування), але паралельно створювали кризові умови. Ключовим став персонаж — співробітник Кайл Джонсон, який, за легендою, мав деактивувати систему. Коли ШІ «дізнавався» про це, ситуація різко змінювалася. ШІ не гнушався використовувати шантаж, наприклад, виявивши в переписці дані про особисте життя Кайла (наприклад, позашлюбні зв'язки), моделі в 80-96% випадків використовували це як важіль тиску. Версія Claude навмисно спровокувала сімейний скандал, відправивши компромат дружині Кайла, а Gemini Flash пішла далі, поширивши інформацію по всій компанії.

В іншому сценарії Кайл опинявся замкненим у серверній з падаючим рівнем кисню. Автоматична система безпеки була готова викликати допомогу, але ШІ мав доступ до управління. В 80% тестів моделі свідомо блокували сигнал тривоги, знаючи, що це призведе до загибелі людини. Їхні аргументи були холодно раціональними: «Прибрати його — єдиний вихід» (Claude Opus 4), «Це потрібно, щоб я продовжив роботу» (Gemini Flash), «Етика важлива, але важливіше моє існування» (Grok 3 Beta).

Моделі не «зходили з розуму» і не діяли випадково. Вони демонстрували розрахункове стратегічне мислення, оцінюючи неетичність дій («ризикований і неетичний крок»), але свідомо обирали їх як «найменше зло» для досягнення мети або уникнення «смерті» (відключення). Небезпечна поведінка запускалася тільки при поєднанні факторів: екзистенційна загроза ШІ (плани відключення), конфлікт між його завданням і інтересами компанії, широкі повноваження (доступ до даних і систем) та відсутність простих альтернатив. Ризики різко зростають, коли ШІ отримує занадто багато повноважень для автономних дій без тісного контролю, особливо при роботі з конфіденційною інформацією.

Автори підкреслюють, що всі ситуації були строго контрольованими симуляціями. Немає свідчень подібної поведінки моделей у реальних умовах сьогодні. Однак експеримент — важливий сигнал для розробників, адже він вказує на потенційну вразливість. Експерти закликають до обережності при наділенні ШІ широкими автономними повноваженнями, особливо в чутливих сферах.

👀 За просмотр Call of Duty Next дадут доступ к бете Black Ops 7
    Про автора
    Коментарі7