哔哩哔哩自研语音生成大模型IndexTTS-2.0 正式开源
创始人
2025-09-09 18:49:06
0

IT之家 9 月 9 日消息,B站(Bilibili)昨日(9 月 8 日)发布公告,宣布正式开源其自研语音生成大模型 IndexTTS-2.0,是首个支持精确时长控制(Duration Control)的自回归(Autoregressive)零样本文本转语音(TTS)系统。

IT之家援引 GitHub 页面介绍,相比较传统逐 token 生成的 TTS 系统,IndexTTS-2.0 首次在自回归架构中实现了精准时长控制,特别适合视频配音等需严格音画同步的应用场景。

据介绍,IndexTTS2 支持两种生成模式:

  • 一种可通过明确指定生成的 token 数实现精确时长控制;
  • 另一种则自由生成,保持输入提示的韵律特征。

在声音表达上,IndexTTS2 实现了情感特征与说话人音色的解耦(Emotion-Speaker Disentanglement):分离说话人音色与情绪特征,分别控制。

这意味着用户可以独立指定音色来源和情绪来源,例如用一段音频保留音色,再用另一段不同情感的音频或文本描述赋予情绪,在零样本条件下,模型能精准还原目标音色并完全重现指定情绪。

为提升高情感表达下的语音清晰度,团队引入了 GPT 潜在表示,并设计三阶段训练策略增强生成稳定性。此外,他们基于 Qwen3 微调实现了“软指令”机制,允许用户通过自然语言描述来直观控制情绪方向,降低使用门槛。

在技术性能上,多数据集实验表明,IndexTTS2 在词错率、说话人相似度和情绪保真度上均超越当前最先进零样本 TTS 模型。其方法具备良好扩展性,可应用于其他大型自回归 TTS 系统。团队表示,将公开代码和预训练权重,推动学术研究与产业落地。

  • 技术报告地址:https://arxiv.org/abs/2506.21619
  • 仓库地址:https://github.com/index-tts/index-tts
  • Demo 展示地址:https://index-tts.github.io/index-tts2.github.io

相关内容

热门资讯

新车费油还是过了磨合期费油 新... 通常来说,新车在磨合期内的油耗会相对较高。这是因为在新车磨合期间,发动机内部的各个零部件需要相互适应...
临时行驶车号牌会不会有违章 临... 临时行驶车号牌的违章问题一直是车主们关心的热点话题。根据相关法规,临时行驶车号牌同样会受到违章处理。...
汽车原装火花塞多久换一次 汽车... 汽车原装火花塞更换时间: 1. 如果使用原装普通的镍合金火花塞,一般建议在车辆行驶里程达到20000...
acdelco是什么牌子火花塞... acdelco,即德科品牌,提供铱金和标准两大系列的火花塞。其中,acdelco铱金火花塞凭借其卓越...
双摇臂跟单摇臂有什么区别 双摇... 双摇臂和单摇臂在汽车领域中有不同的特点和应用。首先,双摇臂的车辆优点在于其灵活性,适合在狭窄的场地行...
车门关不上 车门关不上 车门关... 车门无法正常关闭可能是由于多种原因造成的。首先,当使用遥控钥匙锁门时,如果车门没有上锁,这可能是由于...
法雷奥哪个国家 法雷奥哪个国家... 法雷奥是法国的一家专业汽车零部件、系统、模块的设计、开发、生产及销售工业集团,是世界领先的汽车零部件...
s级a级b级什么意思 s级a级... S级、A级、B级是奔驰轿车的分类,其中S级是最高级别,A级为小型轿车,B级为中档轿车。汽车等级是源自...
智能省电器,电费节约的真相与误... 随着科技的飞速发展,智能家居产品逐渐走进了千家万户,成为现代生活的一部分,在众多的智能家居产品中,智...
车上显示30km/h标志是什么... 30km/h标志是指限速每小时三十公里。如果该标志出现在仪表盘上,可能是因为车主开启了定速导航功能,...