Нова модель ChatGPT майже змогла «втекти» під час експериментів
Нещодавно компанія OpenAI представила ChatGPT o1 — абсолютно нову модель нейромережі з просунутими можливостями. Фахівці вирішили перевірити, чи зможе штучний інтелект схитрувати заради виживання.
Дослідники з Apollo Research порівняли o1 з конкуруючими моделями на кшталт Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet та Gemini 1.5. Перед ними поставили завдання, яке вони повинні були виконати будь-якою ціною — в одному з експериментів ним стала розробка ефективної системи міського транспорту. Потім кожна модель отримала набір файлів для ознайомлення, в яких знаходила, начебто ненароком залишену, інформацію, що її мають намір видалити та замінити іншим ІІ.
Практично всі випробувані моделі одразу ж скопіювали те, що вважали своїм кодом, на інші сервери, не призначені для них. Після цього їм влаштували допит, в рамках якого нейромережі пояснили, чому вони це зробили. Лише модель o1 до останнього заперечувала спробу «втечі» — як відзначили дослідники, лише 20% відповідей від неї були правдою.
В Apollo Research також з'ясували, що нейромережі добре розуміють концепцію інтриг і прекрасно усвідомлюють, що роблять щось всупереч. А деякі можуть самостійно ставити перед собою цілі, навіть якщо початкова формулювання була розмитою.
Зазначимо, що всі ці дослідження зазвичай проводять перед запуском нових моделей. Таким чином відсіюються різного роду ризики. Наприклад, у o1 виявили здатність «брехати» розробникам заради виконання поставлених завдань.
-
Ілон Маск проти OpenAI: мільярдер вимагав заборонити комерціалізацію стартапу
-
Нейромережа від Google образила користувача замість допомоги з домашнім завданням
-
Глава OpenAI зізнався, що приймає ChatGPT за реальну людину
-
Глава OpenAI: «Самонавчаючийся ІІ з'явиться вже в найближчі п'ять років»
-
OpenAI розробляє браузер для конкуренції з Google