Україна
Xiaomi відкрила код нової моделі OmniVoice для синтезу мовлення
Команда AI Lab Xiaomi опублікувала вихідний код моделі OmniVoice, здатної генерувати голос сотнями мов, клонувати голоси та працювати з мінімальними даними.
Команда AI Lab компанії Xiaomi відкрила вихідний код нової моделі синтезу мовлення OmniVoice, яка обіцяє революціонізувати галузь штучного інтелекту. Ця система розроблена для високоякісного генерування голосу сотнями мов та підтримує функцію клонування з гнучким налаштуванням аудіо.
Однією з ключових переваг OmniVoice є здатність працювати з мовами, де навчальних даних критично мало. Навіть для мов із менш ніж 10 годинами записів система забезпечує високу розбірливість, що перевершує показники багатьох комерційних рішень у тестуванні на 102 мовах.
Архітектура моделі суттєво відрізняється від сучасних гібридних систем. Використання єдиної двоспрямованої мережі Transformer та інтеграція великої мовної моделі дозволили скоротити час навчання до одного дня на базі 100 тисяч годин аудіо. Швидкість генерації при цьому у 40 разів перевищує реальний час.
Крім базового синтезу, OmniVoice пропонує створення голосів за текстовим описом, автоматичне видалення шумів та підтримку експресивного мовлення зі сміхом чи зітханнями. Користувачі також отримують інструменти для ручної корекції вимови складних слів та власних назв.
Відкритий вихідний код дозволяє розробникам швидко впроваджувати технологію у власні застосунки, роблячи штучний інтелект більш доступним для українських користувачів та розробників.
Читайте також
- OpenAI запустила нові інструменти для голосових AI-додатків в Україні
- Xiaomi HyperOS 7.0: у мережі з'явилася рання версія лаунчера для Android 17
- Anthropic та SpaceX збільшили ліміти запитів у Claude Code
- GitHub змінює оплату Copilot: розробникам доведеться платити за використання AI
- EPAM та Anthropic об'єднують сили для впровадження корпоративного ШІ в Україні
Новини цього розділу
ChatGPT навчився попереджати близьких про ризик самогубства користувача
Apple готує iPhone з голографічним дисплеєм: що відомо про "Spatial iPhone"
Китайський досвід: 110 роботів-поліцейських вийшли на контроль трафіку
Apple готує AirPods Pro з камерами для візуального штучного інтелекту
Хитрощі українських кіберфахівців: як виманено дані про 2600 терміналів Starlink у росіян
Triomatica Games анонсувала стратегічний роуглайк Black Flower
Збій хмарних сервісів Amazon через перегрів: Coinbase та інші компанії відновили роботу
LIGA.net представив штучний інтелект J_3000 AI для читачів
EPAM та Anthropic об'єднують сили для впровадження корпоративного ШІ в Україні
OpenAI впроваджує функцію Trusted Contact для попередження про суїцидальні думки в ChatGPT
Коментарі
Коментарів ще немає. Будьте першим у цій дискусії.