Нейромережі в кодуванні все ще зелені новачки, які не здатні вирішувати навіть десятину поставлених завдань
MrProRock(33RU)
Недавні випробування в рамках конкурсу K Prize виявили суттєві обмеження сучасних нейромереж у програмуванні. Суть змагання полягає в оцінці здатності ШІ вирішувати реальні завдання розробки ПЗ.
У змаганні брали участь лише відкриті моделі штучного інтелекту з самостійним хостингом, яким належало вирішувати актуальні завдання з GitHub без попередньої підготовки. Результати виявилися вкрай низькими: жодна з систем не подолала поріг у 10% успішно вирішених завдань. При цьому найкращим результатом стало рішення 7,5 (9 з 120) завдань людиною-учасником. Для порівняння, на інших тестах (наприклад, SWE-Bench) деякі ШІ-моделі демонстрували значно вищі результати — до 75% на простих завданнях і близько 34% на складних.
Таким чином результати K Prize показали, що навіть найпросунутіші моделі ШІ справляються лише з невеликою кількістю всіх завдань. Хоча нейромережі успішно виконують шаблонні завдання, вони стикаються зі складністю в інтерпретації технічних завдань і відсутністю людського рівня творчого мислення.

При написанні коду ШІ часто створює технічно коректні, але неефективні рішення, що не відповідають промисловим стандартам. У роботах регулярно зустрічаються логічні помилки, очевидні для досвідченого програміста.
Незважаючи на поточні обмеження, технології розвиваються. Розробники вдосконалюють алгоритми машинного навчання та механізми взаємодії ШІ з інструментами програмування. Однак поки штучний інтелект залишається допоміжним інструментом, і говорити про заміну людини в розробці ПЗ ще дуже рано.
Перевір текст на логічні помилки.