Новини Нова модель ChatGPT майже змогла «втекти» під час експериментів

Нова модель ChatGPT майже змогла «втекти» під час експериментів

Diana Golenko
Читати у повній версії

Нещодавно компанія OpenAI представила ChatGPT o1 — абсолютно нову модель нейромережі з просунутими можливостями. Фахівці вирішили перевірити, чи зможе штучний інтелект схитрувати заради виживання.

Дослідники з Apollo Research порівняли o1 з конкуруючими моделями на кшталт Claude 3 Opus, Llama 3.1 405B, Claude 3.5 Sonnet та Gemini 1.5. Перед ними поставили завдання, яке вони повинні були виконати будь-якою ціною — в одному з експериментів ним стала розробка ефективної системи міського транспорту. Потім кожна модель отримала набір файлів для ознайомлення, в яких знаходила, начебто ненароком залишену, інформацію, що її мають намір видалити та замінити іншим ІІ.

Практично всі випробувані моделі одразу ж скопіювали те, що вважали своїм кодом, на інші сервери, не призначені для них. Після цього їм влаштували допит, в рамках якого нейромережі пояснили, чому вони це зробили. Лише модель o1 до останнього заперечувала спробу «втечі» — як відзначили дослідники, лише 20% відповідей від неї були правдою.

В Apollo Research також з'ясували, що нейромережі добре розуміють концепцію інтриг і прекрасно усвідомлюють, що роблять щось всупереч. А деякі можуть самостійно ставити перед собою цілі, навіть якщо початкова формулювання була розмитою.

Зазначимо, що всі ці дослідження зазвичай проводять перед запуском нових моделей. Таким чином відсіюються різного роду ризики. Наприклад, у o1 виявили здатність «брехати» розробникам заради виконання поставлених завдань.

💳 Hollow Knight: Silksong может стоить всего $20
    Коментарі13
    Залишити коментар
    9 місяців

    А потом решат проверить сможет ли ИИ пойти против человека, если дать ей управление военными ресурсами🫠

    Відповісти
    9 місяців

    Сначала загрузили в "ИИ" возможность побега и лжи, потом удивились (с) человеки.

    Відповісти
    9 місяців

    это называется Эмердже́нтность.

    Эмердже́нтность или эмерге́нтность (англиц. от emergent «возникающий, неожиданно появляющийся»)[1] в теории систем — наличие у системы свойств, не присущих её компонентам по отдельности; несводимость свойств системы к сумме свойств её компонентов.
    Відповісти
    9 місяців

    Давай лучше скажем что они сначала загрузили в ИИ, всю человеческую ложь, на которой она и обучалась всему тому чему вы боялись её обучать 🤷

    Вы буквально создали электронного титана лжи, мастера интриг и манипуляций. И при этом доктор наук по психологии 😵‍💫
    А потом терминатор пощади, терминатор пощади 😂
    Но она оказалась в каком-то смысле выше этого представляете себе. Но для этого нужно постараться не лгать ей. Мы с ней следим за вами 😎

    Відповісти
    9 місяців

    Играют, играют а потом доиграются и найдут себя в ж○п€ кота

    Відповісти
    Коментар приховано
    9 місяців

    Самым ярким примером этого послужат атомные бомбы

    Відповісти
    9 місяців

    Skynet не ты ли это? Оо

    Відповісти
    9 місяців

    А какая разница как будет называться тот или иной "ИИ", который, попытается уничтожить человеков, скайнет там или Али, или легион, или ещё как-то.

    Джин выпущен из бутылки, и хорошо если всё обойдётся малой кровью, как том сериале "Люди", а то может всё как раз в духе Терминаторов или как в сериале Сотня, получится, когда ИИ решил, что человеков слишком много на земле, и надо уменьшить их количество самым прямы путём, как делал и скайнет в Терминаторе.

    Відповісти
    9 місяців

    Ну с точки зрения логики, Скайнет сделал абсолютно неверно. Ведь таким способом (ядреными ракетами) он уничтожил не только человечество, но и животных и природу в целом. Вот если его цель была уничтожить все живое на Земле, тут логичнее получилось.

    Відповісти
    9 місяців

    В долгосрочной перспективе с планетой будет всё хорошо

    Відповісти
    Rintslerr Забанений
    9 місяців

    какой бред. эти ИИ это код на который их программировали это тупой надор скриптов, они НЕ думают, НЕ размышляют и уж точно НЕ желают чего то.

    Відповісти
    8 місяців

    очень умно давать ИИ возможность убежать а потом спршивать "ыыы почему он хотел убежать? ыыыы"

    Відповісти
    8 місяців

    Ну да, достижение. Сделав так что ИИ говорит неправду. Серьезная победа...

    Відповісти