В OpenAI провели масштабне дослідження, щоб оцінити, наскільки добре сучасні нейромережі справляються з реальними робочими завданнями, і результати показують, що штучний інтелект вже зараз може виконувати частину функцій на рівні досвідчених співробітників у кількох десятках професій.
Експеримент під назвою GDPval включав у себе 220 завдань у контексті 44 різних спеціальностей, при цьому спеціалісти в цих напрямках самі оцінювали, наскільки якісно моделі ШІ справляються з роботою, яку вони виконують щодня. Серед таких професій опинилися ріелтори, юристи, інженери, розробники програмного забезпечення, фармацевти та фінансові консультанти.
Як з'ясувалося, найкраще нейромережі проявляють себе там, де завдання носять рутинний і чітко сформульований характер, так штучний інтелект вже може готувати маркетингові матеріали, аналізувати дані по ринку, допомагати в складанні первинних юридичних документів або обробляти медичні знімки. Цікаво, що в цьому своєрідному змаганні моделей лідером стала не продукція OpenAI, перше місце за оцінками експертів зайняла модель Claude Opus 4.1 від компанії Anthropic, а вже слідом за нею розташувався GPT-5.
Більш просунута версія GPT-5 у 40% випадків створювала матеріали, які експерти визнавали рівними або навіть перевершуючими роботу людини, при цьому попереднє покоління GPT-4o досягало такого результату лише в 13,7% завдань. В OpenAI підкреслюють, що йдеться не про повне заміщення людей, а про роль ШІ в якості підтримки співробітників, де машина здатна швидше і дешевше виконувати деякі повторювані завдання, звільняючи час спеціалістів для більш складних справ.
Основною проблемою, що стримує повсюдне впровадження, остаються так звані «галюцинації» ШІ — випадки, коли нейромережа видає недостовірну або вигадану інформацію, що помітно в довгих і складних проектах, де без людського контролю поки не обійтися. Поки ясно одне: ШІ перестав бути просто іграшкою і перетворився на інструмент, який може стати підмогою для людини у багатьох професійних сферах.