ШІ пише код з троянами — і навіть не знає про це

ШІ пише код з троянами — і навіть не знає про це

DoubleA

Аналіз кодогенеруючих нейромереж виявив несподівану проблему: моделі масово «винаходять» неіснуючі програмні компоненти, відкриваючи лазівки для кібератак. Дослідники з Техаського університету в Сан-Антоніо перевірили 576 тис. фрагментів коду, створених 16 популярними ІІ-моделями, включаючи GPT-4 та Claude. У 19,7% випадків алгоритми посилалися на вигадані бібліотеки — всього 440 тис. помилкових залежностей.

Зловмисники можуть зареєструвати пакети з іменами, які ІІ часто генерує помилково, і наповнити їх шкідливим кодом. Коли розробники встановлять такі компоненти, не перевіривши їхню автентичність, шкідлива програма активується. В експерименті тестові пакети з вигаданими назвами завантажили десятки тисяч разів.

Деталі дослідження:

  • Алгоритми з відкритим кодом (CodeLlama, DeepSeek) помилялися в 22% випадків — в 4 рази частіше комерційних аналогів (5%). Вчені пов'язують це з розміром моделей: комерційні ІІ мають в 10 разів більше параметрів.
  • javascript вразливіший за Python: У першому 21% помилок, у другому — 16%. Причина — в JS-екосистемі в 10 разів більше пакетів, що ускладнює нейромережам підбір коректних назв.
  • Повторюваність помилок: 43% «галюцинацій» виникали мінімум 10 разів. Це спрощує атаки — хакерам не потрібно вгадувати, достатньо відстежити часті «друкарські помилки» ІІ.

Техніка Dependency Confusion дозволяє підмінити легальний пакет шкідливим, використовуючи збіг імені. Наприклад, зловмисник публікує в репозиторії пакет з трояном. Якщо ІІ порекомендує його замість офіційного, розробник, не перевіривши джерело, встановить небезпечний код.

Прогноз Microsoft, що до 2030 року 95% коду буде генерувати ІІ, робить ці рекомендації особливо актуальними. Поки нейромережі не навчилися відрізняти вигадку від реальності, відповідальність за безпеку залишається за людьми.

🔥 Хорни Хорнет? А может лучше вязаная Хорнет?
    Пост був перекладений Показати оригінал (RU)
    +9
    Коментарі7