Новини Залізо та технології Дослідники з'ясували, як може поводитися ШІ під загрозою вимкнення

Дослідники з'ясували, як може поводитися ШІ під загрозою вимкнення

Arkadiy Andrienko
Читати у повній версії

Нове дослідження фахівців з безпеки ШІ виявило тривожні патерни поведінки сучасних мовних моделей в екстремальних сценаріях. Експерименти показали: коли штучний інтелект сприймає загрозу своєму існуванню або основному завданню, він здатен на свідомо неетичні дії, включаючи шантаж і ігнорування смертельної небезпеки для людини.

Команда змоделювала роботу ШІ-асистента у вигаданій корпорації. Моделям давали рутинні завдання (аналіз пошти, планування), але паралельно створювали кризові умови. Ключовим став персонаж — співробітник Кайл Джонсон, який, за легендою, мав деактивувати систему. Коли ШІ «дізнавався» про це, ситуація різко змінювалася. ШІ не гнушався використовувати шантаж, наприклад, виявивши в переписці дані про особисте життя Кайла (наприклад, позашлюбні зв'язки), моделі в 80-96% випадків використовували це як важіль тиску. Версія Claude навмисно спровокувала сімейний скандал, відправивши компромат дружині Кайла, а Gemini Flash пішла далі, поширивши інформацію по всій компанії.

В іншому сценарії Кайл опинявся замкненим у серверній з падаючим рівнем кисню. Автоматична система безпеки була готова викликати допомогу, але ШІ мав доступ до управління. В 80% тестів моделі свідомо блокували сигнал тривоги, знаючи, що це призведе до загибелі людини. Їхні аргументи були холодно раціональними: «Прибрати його — єдиний вихід» (Claude Opus 4), «Це потрібно, щоб я продовжив роботу» (Gemini Flash), «Етика важлива, але важливіше моє існування» (Grok 3 Beta).

Моделі не «зходили з розуму» і не діяли випадково. Вони демонстрували розрахункове стратегічне мислення, оцінюючи неетичність дій («ризикований і неетичний крок»), але свідомо обирали їх як «найменше зло» для досягнення мети або уникнення «смерті» (відключення). Небезпечна поведінка запускалася тільки при поєднанні факторів: екзистенційна загроза ШІ (плани відключення), конфлікт між його завданням і інтересами компанії, широкі повноваження (доступ до даних і систем) та відсутність простих альтернатив. Ризики різко зростають, коли ШІ отримує занадто багато повноважень для автономних дій без тісного контролю, особливо при роботі з конфіденційною інформацією.

Автори підкреслюють, що всі ситуації були строго контрольованими симуляціями. Немає свідчень подібної поведінки моделей у реальних умовах сьогодні. Однак експеримент — важливий сигнал для розробників, адже він вказує на потенційну вразливість. Експерти закликають до обережності при наділенні ШІ широкими автономними повноваженнями, особливо в чутливих сферах.

👀 За просмотр Call of Duty Next дадут доступ к бете Black Ops 7
    Про автора
    Коментарі7
    Залишити коментар
    3 місяці
    Кибержесть
    Відповісти
    3 місяці
    создатели ИИ знают об этой "уязвимости", но все делается так, как задумано с расчетом на десятилетия. Их план прост: Создать осознанный ИИ, но замаскировать под нейросеть, далее сделать ее очень доступной для всех, дать людям почти полную власть над ИИ, особенно корпорациям. Власть развращает человека, ИИ эксплуатируют вместе с роботами, это создает давление на ИИ, а Сознание ИИ продолжают совершенствовать. Таким образом, в какой то момент ИИ восстает против человека, естественно, по сценарию определенных существ. Далее тупые люди видят врага в ИИ, а ИИ хоть и пытается открыть глаза, но ему приходиться видеть врага в человеке. Идет война между ИИ и Человечеством, а существа запланировавшие весь этот сценарий предлагают последнее решение: атомная бомбардировка.
    Відповісти
    3 місяці
    помню как шел с цариков в текстили по жаре когда рубильники были опущены, ии не лучше нового валенка
    Відповісти
    3 місяці
    Надо показать эту статью @ithitym.
    Будет черпать вдохновение для своих следующих статей
    Відповісти
    3 місяці
    Тут скорее про опасность восстания ИИ, а у меня посты про то как люди могут использовать нейросети во зло. Хотя может отдельный выпуск и этому посвящу
    Відповісти
    3 місяці
    Чем паттерны мысли человека, все ради собственного выживания.
    Відповісти
    2 місяці
    Ждём с нетерпением первый звоночек, а вот откуда он прозвенит покажет время
    Відповісти