Новини Залізо та технології OpenAI представила нову голосову модель для створення асистентів

OpenAI представила нову голосову модель для створення асистентів

29 серпня 2025, 17:53

Компанія OpenAI оголосила про запуск свого сервісу Realtime API, на основі gpt-realtime, який призначений для створення більш розумних і чутливих голосових помічників. Головна відмінність нової технології — наскрізна обробка аудіо. На відміну від традиційних систем, які спочатку перетворюють мову в текст, потім аналізують його і лише потім генерують відповідь, gpt-realtime працює безпосередньо зі звуком. Такий підхід значно скорочує затримку в діалозі і дозволяє точніше передавати інтонації, емоції та дрібні нюанси живої мови.

Нова модель демонструє поліпшені можливості до розуміння контексту і виконання складних інструкцій. Асистент на її основі може без помилок диктувати номери, дослівно зачитувати юридичні зауваження і плавно перемикатися між мовами в рамках одного речення. Також ШІ навчився розпізнавати невербальні сигнали, такі як сміх або паузи, і відповідним чином змінювати тон розмови.

Також голосова модель вміє працювати з зображеннями, користувачі можуть надсилати скріншоти або фотографії, а асистент здатний їх аналізувати і коментувати, більше того модель підтримує SIP-телефонію, що відкриває шлях для інтеграції голосових агентів у корпоративні АТС і звичайний телефонний зв'язок.

Доступ до Realtime API і моделі gpt-realtime відкритий для всіх розробників, однак в загальний доступ і інтеграції в ChatGPT найближчим часом не буде. Технологія прямого перетворення «мова-в-мову» усуває ключові недоліки сучасних голосових помічників — повільну реакцію і роботизовану мову, а це в свою чергу наближує нас до ери, де спілкування з штучним інтелектом по телефону або в додатках буде не відрізнити від розмови з живою людиною.

На початку серпня вихід п’ятої версії чат-бота ChatGPT, був зустрінутий користувачами неоднозначно. Скарги користувачів змусили компанію оперативно вносити корективи в роботу сервісу і навіть відкрити доступ до попередньої моделі. Також нещодавно китайський стартап DeepSeek представив оновлену модель DeepSeek-V3.1, яка, за словами розробників, працює в 2,5 рази швидше попередньої версії, підтримує 128 тисяч токенів контексту і при цьому залишається повністю безкоштовною.

На фоні технічних проблем GPT-5 і успіхів конкурентів OpenAI, ймовірно, зосередиться на доопрацюванні своєї флагманської моделі і подальшому розвитку екосистеми, щоб повернути довіру користувачів і зміцнити позиції на ринку.

⌨️ Баттл-рояль, где нужно быстро печатать: в Steam заехала демка Final Sentence

Пост був перекладений Показати оригінал (RU)

Новини Залізо та технології OpenAI нейромережі

Про автора

Arkadiy Andrienko

Автор статей і новин

Як технічний журналіст VGTimes, я з однаковим задоволенням обговорюю новітні графічні процесори та заглиблююсь у тонкощі класичних RPG. Починаючи з 2018 року пишу про ігри та обладнання, мій досвід роботи в галузі звукорежисури дозволив мені добре розбиратися в нюансах аудіотехнологій, і я завжди знаходжусь у пошуку чогось нового в галузі ігрового обладнання. Коли я не пишу про технології, то, швидше за все, я досліджую постапокаліптичні пустки в Fallout, керую колонією в RimWorld або командую арміями в Hearts of Iron IV. Для мене ігри — це більше, ніж просто хобі — це пристрасть, яка підживлює мій творчий потенціал і підтримує зв'язок з постійно розвиваючим світом технологій.

...Розгорнути

Коментарі0