Новини Нова модель ChatGPT майже змогла «втекти» під час експериментів

Нова модель ChatGPT майже змогла «втекти» під час експериментів

6 грудня 2024, 13:52

Нещодавно компанія OpenAI представила ChatGPT o1 — абсолютно нову модель нейромережі з просунутими можливостями. Фахівці вирішили перевірити, чи зможе штучний інтелект схитрувати заради виживання.

Дослідники з Apollo Research порівняли o1 з конкуруючими моделями на кшталт Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet та Gemini 1.5. Перед ними поставили завдання, яке вони повинні були виконати будь-якою ціною — в одному з експериментів ним стала розробка ефективної системи міського транспорту. Потім кожна модель отримала набір файлів для ознайомлення, в яких знаходила, начебто ненароком залишену, інформацію, що її мають намір видалити та замінити іншим ІІ.

Практично всі випробувані моделі одразу ж скопіювали те, що вважали своїм кодом, на інші сервери, не призначені для них. Після цього їм влаштували допит, в рамках якого нейромережі пояснили, чому вони це зробили. Лише модель o1 до останнього заперечувала спробу «втечі» — як відзначили дослідники, лише 20% відповідей від неї були правдою.

В Apollo Research також з'ясували, що нейромережі добре розуміють концепцію інтриг і прекрасно усвідомлюють, що роблять щось всупереч. А деякі можуть самостійно ставити перед собою цілі, навіть якщо початкова формулювання була розмитою.

Зазначимо, що всі ці дослідження зазвичай проводять перед запуском нових моделей. Таким чином відсіюються різного роду ризики. Наприклад, у o1 виявили здатність «брехати» розробникам заради виконання поставлених завдань.

🤯 Нового героя «Геншина» и Паровозика Томаса озвучивает один и тот же человек

Пост був перекладений Показати оригінал (RU)

Новини ОС і програми нейромережі штучний інтелект OpenAI ChatGPT

Про автора

Diana Golenko

Автор новин

Ігровий журналіст та автор новин для VGTimes з 2024 року. Захоплююсь іграми з моменту першого запуску GTA: San Andreas у 2010 році, але особливу перевагу віддаю RPG, симуляторам виживання та іммерсив-сімам. Вірний фанат The Elder Scrolls та Half-Life.

...Розгорнути

Коментарі13