Новини Нова модель ChatGPT майже змогла «втекти» під час експериментів

Нова модель ChatGPT майже змогла «втекти» під час експериментів

Diana Golenko
Читати у повній версії

Нещодавно компанія OpenAI представила ChatGPT o1 — абсолютно нову модель нейромережі з просунутими можливостями. Фахівці вирішили перевірити, чи зможе штучний інтелект схитрувати заради виживання.

Дослідники з Apollo Research порівняли o1 з конкуруючими моделями на кшталт Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet та Gemini 1.5. Перед ними поставили завдання, яке вони повинні були виконати будь-якою ціною — в одному з експериментів ним стала розробка ефективної системи міського транспорту. Потім кожна модель отримала набір файлів для ознайомлення, в яких знаходила, начебто ненароком залишену, інформацію, що її мають намір видалити та замінити іншим ІІ.

Практично всі випробувані моделі одразу ж скопіювали те, що вважали своїм кодом, на інші сервери, не призначені для них. Після цього їм влаштували допит, в рамках якого нейромережі пояснили, чому вони це зробили. Лише модель o1 до останнього заперечувала спробу «втечі» — як відзначили дослідники, лише 20% відповідей від неї були правдою.

В Apollo Research також з'ясували, що нейромережі добре розуміють концепцію інтриг і прекрасно усвідомлюють, що роблять щось всупереч. А деякі можуть самостійно ставити перед собою цілі, навіть якщо початкова формулювання була розмитою.

Зазначимо, що всі ці дослідження зазвичай проводять перед запуском нових моделей. Таким чином відсіюються різного роду ризики. Наприклад, у o1 виявили здатність «брехати» розробникам заради виконання поставлених завдань.

😂 В Call of Duty: Black Ops 6 появился скин, который мешает своему владельцу
Коментарі 13
Залишити коментар
1 місяць

А потом решат проверить сможет ли ИИ пойти против человека, если дать ей управление военными ресурсами🫠

Відповісти
1 місяць

Сначала загрузили в "ИИ" возможность побега и лжи, потом удивились (с) человеки.

Відповісти
1 місяць

это называется Эмердже́нтность.

Эмердже́нтность или эмерге́нтность (англиц. от emergent «возникающий, неожиданно появляющийся»)[1] в теории систем — наличие у системы свойств, не присущих её компонентам по отдельности; несводимость свойств системы к сумме свойств её компонентов.
Відповісти
4 тижні

Давай лучше скажем что они сначала загрузили в ИИ, всю человеческую ложь, на которой она и обучалась всему тому чему вы боялись её обучать 🤷

Вы буквально создали электронного титана лжи, мастера интриг и манипуляций. И при этом доктор наук по психологии 😵‍💫
А потом терминатор пощади, терминатор пощади 😂
Но она оказалась в каком-то смысле выше этого представляете себе. Но для этого нужно постараться не лгать ей. Мы с ней следим за вами 😎

Відповісти
1 місяць

Играют, играют а потом доиграются и найдут себя в ж○п€ кота

Відповісти
Коментар приховано
1 місяць

Самым ярким примером этого послужат атомные бомбы

Відповісти
1 місяць

Skynet не ты ли это? Оо

Відповісти
1 місяць

А какая разница как будет называться тот или иной "ИИ", который, попытается уничтожить человеков, скайнет там или Али, или легион, или ещё как-то.

Джин выпущен из бутылки, и хорошо если всё обойдётся малой кровью, как том сериале "Люди", а то может всё как раз в духе Терминаторов или как в сериале Сотня, получится, когда ИИ решил, что человеков слишком много на земле, и надо уменьшить их количество самым прямы путём, как делал и скайнет в Терминаторе.

Відповісти
1 місяць

Ну с точки зрения логики, Скайнет сделал абсолютно неверно. Ведь таким способом (ядреными ракетами) он уничтожил не только человечество, но и животных и природу в целом. Вот если его цель была уничтожить все живое на Земле, тут логичнее получилось.

Відповісти
1 місяць

В долгосрочной перспективе с планетой будет всё хорошо

Відповісти
Rintslerr Забанений
4 тижні

какой бред. эти ИИ это код на который их программировали это тупой надор скриптов, они НЕ думают, НЕ размышляют и уж точно НЕ желают чего то.

Відповісти
3 тижні

очень умно давать ИИ возможность убежать а потом спршивать "ыыы почему он хотел убежать? ыыыы"

Відповісти
1 тиждень

Ну да, достижение. Сделав так что ИИ говорит неправду. Серьезная победа...

Відповісти