Новини Нова модель ChatGPT майже змогла «втекти» під час експериментів

Нова модель ChatGPT майже змогла «втекти» під час експериментів

Diana Golenko

6 грудня 2024, 13:52

Нещодавно компанія OpenAI представила ChatGPT o1 — абсолютно нову модель нейромережі з просунутими можливостями. Фахівці вирішили перевірити, чи зможе штучний інтелект схитрувати заради виживання.

Дослідники з Apollo Research порівняли o1 з конкуруючими моделями на кшталт Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet та Gemini 1.5. Перед ними поставили завдання, яке вони повинні були виконати будь-якою ціною — в одному з експериментів ним стала розробка ефективної системи міського транспорту. Потім кожна модель отримала набір файлів для ознайомлення, в яких знаходила, начебто ненароком залишену, інформацію, що її мають намір видалити та замінити іншим ІІ.

Практично всі випробувані моделі одразу ж скопіювали те, що вважали своїм кодом, на інші сервери, не призначені для них. Після цього їм влаштували допит, в рамках якого нейромережі пояснили, чому вони це зробили. Лише модель o1 до останнього заперечувала спробу «втечі» — як відзначили дослідники, лише 20% відповідей від неї були правдою.

В Apollo Research також з'ясували, що нейромережі добре розуміють концепцію інтриг і прекрасно усвідомлюють, що роблять щось всупереч. А деякі можуть самостійно ставити перед собою цілі, навіть якщо початкова формулювання була розмитою.

Зазначимо, що всі ці дослідження зазвичай проводять перед запуском нових моделей. Таким чином відсіюються різного роду ризики. Наприклад, у o1 виявили здатність «брехати» розробникам заради виконання поставлених завдань.

😱 Обстановка в R.E.P.O. с недавним обновлением

Новини ОС і програми нейромережі штучний інтелект OpenAI ChatGPT

Про автора

Diana Golenko

Автор новин

Ігровий журналіст та автор новин для VGTimes з 2024 року. Захоплююсь іграми з моменту першого запуску GTA: San Andreas у 2010 році, але особливу перевагу віддаю RPG, симуляторам виживання та іммерсив-сімам. Вірний фанат The Elder Scrolls та Half-Life.

Коментарі13

Залишити коментар

Джеспер

11 місяців

А потом решат проверить сможет ли ИИ пойти против человека, если дать ей управление военными ресурсами🫠

Відповісти

Sergix

11 місяців

Сначала загрузили в "ИИ" возможность побега и лжи, потом удивились (с) человеки.

Відповісти

ithitym

11 місяців

это называется Эмердже́нтность.

Эмердже́нтность или эмерге́нтность (англиц. от emergent «возникающий, неожиданно появляющийся»)[1] в теории систем — наличие у системы свойств, не присущих её компонентам по отдельности; несводимость свойств системы к сумме свойств её компонентов.

Відповісти

Levgeniy Man

11 місяців

Давай лучше скажем что они сначала загрузили в ИИ, всю человеческую ложь, на которой она и обучалась всему тому чему вы боялись её обучать 🤷

Вы буквально создали электронного титана лжи, мастера интриг и манипуляций. И при этом доктор наук по психологии 😵‍💫
А потом терминатор пощади, терминатор пощади 😂
Но она оказалась в каком-то смысле выше этого представляете себе. Но для этого нужно постараться не лгать ей. Мы с ней следим за вами 😎

Відповісти

Bobur Amatov

11 місяців

Играют, играют а потом доиграются и найдут себя в ж○п€ кота

Відповісти

Коментар приховано

Bobur Amatov

11 місяців

Самым ярким примером этого послужат атомные бомбы

Відповісти

zaduna

11 місяців

Skynet не ты ли это? Оо

Відповісти

SanieriAlister

11 місяців

А какая разница как будет называться тот или иной "ИИ", который, попытается уничтожить человеков, скайнет там или Али, или легион, или ещё как-то.

Джин выпущен из бутылки, и хорошо если всё обойдётся малой кровью, как том сериале "Люди", а то может всё как раз в духе Терминаторов или как в сериале Сотня, получится, когда ИИ решил, что человеков слишком много на земле, и надо уменьшить их количество самым прямы путём, как делал и скайнет в Терминаторе.

Відповісти

Джеспер

11 місяців

Ну с точки зрения логики, Скайнет сделал абсолютно неверно. Ведь таким способом (ядреными ракетами) он уничтожил не только человечество, но и животных и природу в целом. Вот если его цель была уничтожить все живое на Земле, тут логичнее получилось.

Відповісти

ithitym

11 місяців

В долгосрочной перспективе с планетой будет всё хорошо

Відповісти

Rintslerr Забанений

11 місяців

какой бред. эти ИИ это код на который их программировали это тупой надор скриптов, они НЕ думают, НЕ размышляют и уж точно НЕ желают чего то.

Відповісти

RodnoyY

10 місяців

очень умно давать ИИ возможность убежать а потом спршивать "ыыы почему он хотел убежать? ыыыы"

Відповісти

bobie

10 місяців

Ну да, достижение. Сделав так что ИИ говорит неправду. Серьезная победа...

Відповісти