小米开源OmniVoice语音克隆TTS模型,号称覆盖600余种语言
创始人
2026-05-08 13:15:33

据IT之家,小米AI实验室新一代Kaldi团队推出OmniVoice语音克隆TTS模型。官方表示,这是业内首个覆盖数百语种的语音克隆TTS模型,在中英文场景达到顶尖性能,在多语言任务中展现出超越商用系统的实力。

该模型仅用一个双向Transformer网络就直接实现文本到语音转化,省去了文本单独建模、复杂混合结构及多层级token预测等环节,是目前最简单的非自回归TTS模型。其语音合成质量优于目前同类主流模型,训练和推理速度极具优势,一天可完成10万小时训练,用PyTorch推理可达到40倍实时。

OmniVoice有两项关键设计:一是通过全码本随机掩蔽策略提升训练效率;二是首次在非自回归TTS模型中有效利用大语言模型作为预训练参数,大幅提升语音合成的可懂度。

在多语言测试中,即便仅基于开源数据训练,该模型在24语种测试中的语音相似度和可懂度均超越多款商用系统;在102种语种测试中,其语音可懂度逼近甚至优于真实语音;对于训练数据不足10小时的小语种,也能实现高质量语音合成。

该模型还具备多项实用功能:无需参考音频,仅通过描述音色属性即可生成符合预期的音色;能自动过滤参考音频中的噪声,即便在嘈杂环境下录制的音频也能克隆出高质量语音;支持插入笑声、叹气等语气符号;用户可通过简单设置纠正中英文多音字及专有名词的发音错误。

相关内容

热门资讯

敦煌公司团建搞沙漠火锅宴?这份... 敦煌公司团建搞沙漠火锅宴?这份本地攻略连食材配送都给你安排好了! 为什么最近好多企业都来敦煌搞沙漠火...
从城市通勤到星空露营,极狐S3... 清晨的通勤路堵成"红色长龙",周末的露营装备堆满后备箱,当代人的用车需求,总在通勤效率与生活质感间寻...
大白e评丨“瀑布秋千”坠亡悲剧... 5月3日,四川广安华蓥市玛琉岩探险公园发生女游客从瀑布秋千上坠落死亡事故。原以为这只是一场“意外”,...
原创 在... 说到出国旅游,想必大家印象中都是国家的名称代表着消费水平,如果是欧洲,没有几万块钱是去不了的。亚洲就...
三亚“4只皮皮虾1035元”:... 编者按 游客的质疑并非无理取闹,商家的合规也非全然冷漠。 这起事件,再次撕开了旅游城市治理的一道裂缝...