Лаборатория Xiaomi AI Labs представила OmniVoice — систему синтеза и клонирования речи, работающую с 646 языками. Разработчики выложили в открытый доступ исходный код, веса модели и обучающие данные, позволяя любому желающему использовать технологию, которая по результатам тестов уже конкурирует с ведущими коммерческими аналогами по естественности звучания.
Архитектура модели спроектирована с прицелом на скорость: генерация речи происходит в 40 раз быстрее реального времени без дополнительной оптимизации. Столь высокая производительность достигнута за счет использования предобученных параметров больших языковых моделей и упрощенной структуры нейросети. Обучение системы проходило на 50 наборах данных общим объемом 580 тысяч часов после тщательной очистки от шумов.Система умеет не только точно копировать голос по короткому аудиофрагменту, но и переносить его на другие языки, сохраняя уникальные характеристики диктора. Дополнительно реализованы функции управления интонациями, включая добавление смеха или вздохов, а также настройка параметров через текстовые описания. В ходе сравнительных испытаний на 24 языках OmniVoice продемонстрировала превосходство над существующими платными решениями, а на выборке из 102 языков показатели качества приблизились к уровню профессиональных студийных записей.
Комментарии (0)
Пока нет комментариев. Будьте первым!