Команда AI Lab компанії Xiaomi відкрила вихідний код нової моделі синтезу мовлення OmniVoice, яка обіцяє революціонізувати галузь штучного інтелекту. Ця система розроблена для високоякісного генерування голосу сотнями мов та підтримує функцію клонування з гнучким налаштуванням аудіо.

Однією з ключових переваг OmniVoice є здатність працювати з мовами, де навчальних даних критично мало. Навіть для мов із менш ніж 10 годинами записів система забезпечує високу розбірливість, що перевершує показники багатьох комерційних рішень у тестуванні на 102 мовах.

Архітектура моделі суттєво відрізняється від сучасних гібридних систем. Використання єдиної двоспрямованої мережі Transformer та інтеграція великої мовної моделі дозволили скоротити час навчання до одного дня на базі 100 тисяч годин аудіо. Швидкість генерації при цьому у 40 разів перевищує реальний час.

Крім базового синтезу, OmniVoice пропонує створення голосів за текстовим описом, автоматичне видалення шумів та підтримку експресивного мовлення зі сміхом чи зітханнями. Користувачі також отримують інструменти для ручної корекції вимови складних слів та власних назв.

Відкритий вихідний код дозволяє розробникам швидко впроваджувати технологію у власні застосунки, роблячи штучний інтелект більш доступним для українських користувачів та розробників.