
OpenAI представила нову голосову модель для створення асистентів

Компанія OpenAI оголосила про запуск свого сервісу Realtime API, на основі gpt-realtime, який призначений для створення більш розумних і чутливих голосових помічників. Головна відмінність нової технології — наскрізна обробка аудіо. На відміну від традиційних систем, які спочатку перетворюють мову в текст, потім аналізують його і лише потім генерують відповідь, gpt-realtime працює безпосередньо зі звуком. Такий підхід значно скорочує затримку в діалозі і дозволяє точніше передавати інтонації, емоції та дрібні нюанси живої мови.
Нова модель демонструє поліпшені можливості до розуміння контексту і виконання складних інструкцій. Асистент на її основі може без помилок диктувати номери, дослівно зачитувати юридичні зауваження і плавно перемикатися між мовами в рамках одного речення. Також ШІ навчився розпізнавати невербальні сигнали, такі як сміх або паузи, і відповідним чином змінювати тон розмови.
Також голосова модель вміє працювати з зображеннями, користувачі можуть надсилати скріншоти або фотографії, а асистент здатний їх аналізувати і коментувати, більше того модель підтримує SIP-телефонію, що відкриває шлях для інтеграції голосових агентів у корпоративні АТС і звичайний телефонний зв'язок.
Доступ до Realtime API і моделі gpt-realtime відкритий для всіх розробників, однак в загальний доступ і інтеграції в ChatGPT найближчим часом не буде. Технологія прямого перетворення «мова-в-мову» усуває ключові недоліки сучасних голосових помічників — повільну реакцію і роботизовану мову, а це в свою чергу наближує нас до ери, де спілкування з штучним інтелектом по телефону або в додатках буде не відрізнити від розмови з живою людиною.
На початку серпня вихід п’ятої версії чат-бота ChatGPT, був зустрінутий користувачами неоднозначно. Скарги користувачів змусили компанію оперативно вносити корективи в роботу сервісу і навіть відкрити доступ до попередньої моделі. Також нещодавно китайський стартап DeepSeek представив оновлену модель DeepSeek-V3.1, яка, за словами розробників, працює в 2,5 рази швидше попередньої версії, підтримує 128 тисяч токенів контексту і при цьому залишається повністю безкоштовною.
На фоні технічних проблем GPT-5 і успіхів конкурентів OpenAI, ймовірно, зосередиться на доопрацюванні своєї флагманської моделі і подальшому розвитку екосистеми, щоб повернути довіру користувачів і зміцнити позиції на ринку.
-
OpenAI випустила GPT-5 для всіх: програмування «з коробки» і менше помилок
-
OpenAI погодилася повернути GPT-4o після провального запуску GPT-5 і випустила перший патч
-
ИИ Альтмана (OpenAI) обіграв Grok Маска в шаховому фіналі на Kaggle з рахунком 4:0
-
ИИ від OpenAI потрапив у топ-6 найсильніших програмістів світу на IOI 2025
-
OpenAI посилює приватність ChatGPT: шифрування чатів у розробці