Компанія Xiaomi офіційно запустила модель штучного інтелекту OmniVoice, яка дозволяє клонувати голоси та перекладати їх на 646 мов світу. Унікальність розробки полягає у підтримці найрідкісніших мов, для яких традиційно майже не існує навчальних даних, що робить технологію безпрецедентною для глобальної локалізації контенту.

В основі системи лежить 580 тисяч годин аудіозаписів, зібраних з 50 відкритих наборів даних різними мовами. Для забезпечення коректної вимови складних слів та фраз модель використовує великі мовні моделі за принципом, схожим на роботу ChatGPT. Це дозволяє досягти високої природності звучання навіть при роботі з екзотичними діалектами.

Ключовою функцією OmniVoice є клонування голосу з будь-якого короткого зразка. Користувачеві достатньо записати голос людини, і система відтворить його іншою мовою, зберігаючи інтонацію та тембр. Окрім цього, інструмент дозволяє описати бажаний голос текстом, наприклад, «чоловік середнього віку з низьким голосом», і отримати синтезований результат.

Технологія також підтримує додавання емоційних відтінків, таких як сміх, зітхання або шепіт, що робить синтез більш живим. Додатково вбудовані функції виправлення неправильної вимови та очищення фонових шумів перетворюють OmniVoice на потужний інструмент не лише для генерації, а й для професійного редагування аудіо.

Код моделі, навчальні дані та готові ваги вже розміщені у відкритому доступі на платформах GitHub та Hugging Face. Будь-хто може протестувати демоверсію без встановлення додаткового програмного забезпечення, що відкриває широкі можливості для розробників та контент-мейкерів по всьому світу.