Компанія OpenAI офіційно представила нове покоління аудіомоделей для свого API, які дозволяють розробникам створювати голосові ШІ-сервіси з функціями перекладу в реальному часі, транскрипції та підтримки складних діалогів. Цей крок відкриває нові можливості для українських розробників та бізнесу, прагнучого інтегрувати сучасні технології штучного інтелекту у свої продукти.

Ключовою новинкою стала модель GPT-Realtime-2, яка стала першою голосовою розробкою компанії з рівнем міркування, аналогічним до GPT-5. Вона здатна підтримувати довші розмови, одночасно запускати кілька інструментів та швидко реагувати на зміни контексту чи перебивання співрозмовника. Розробники отримали можливість налаштовувати рівень логіки від мінімального до високого, що особливо важливо для роботи зі спеціалізованою термінологією та медичними даними.

Окремо варто згадати про GPT-Realtime-Translate, призначену для миттєвого голосового перекладу. Модель підтримує понад 70 мов введення та 13 мов виведення, що робить її ідеальним рішенням для міжнародних дзвінків, освітніх платформ та багатомовних ШІ-асистентів. Вже зараз деякі компанії, зокрема Deutsche Telekom, тестують цей інструмент для підтримки клієнтів різними мовами, а стартапи відзначають його високу точність при роботі з індійськими мовами.

Третя модель, GPT-Realtime-Whisper, спеціалізується на стримінговій транскрипції мовлення в режимі реального часу. Вона може використовуватися для автоматичного створення субтитрів, ведення нотаток під час дзвінків або автоматизації служби підтримки клієнтів. Усі три нові моделі вже доступні для використання через Realtime API, що дозволяє швидко впроваджувати їх у існуючі екосистеми.

Цей анонс є значним кроком у розвитку голосового штучного інтелекту, роблячи взаємодію з ШІ більш природною та функціональною. Українські розробники та бізнес-спільнота отримали потужні інструменти для створення інноваційних рішень, які можуть змінити підходи до комунікації та обробки інформації в найближчому майбутньому.