小米宣布开源声音理解大模型MiDashengLM-7B
创始人
2025-08-04 14:41:44

今天发布和全量开源了 MiDashengLM-7B 模型。MiDashengLM-7B 基于 Xiaomi Dasheng 作为音频编码器和 Qwen2.5-Omni-7B Thinker 作为自回归解码器,通过创新的通用音频描述训练策略,实现了对语音、环境声音和音乐的统一理解,声音理解性能在22个公开评测集上刷新多模态大模型最好成绩(SOTA),单样本推理的首 Token 延迟(TTFT)仅为业界先进模型的 1/4,同等显存下的数据吞吐效率是业界先进模型的 20 倍以上。

MiDashengLM 以 Xiaomi Dasheng 音频编码器为核心组件,是 Xiaomi Dasheng 系列模型的重要升级。在当前版本的基础上,小米已着手对该模型做计算效率的进一步升级,寻求终端设备上可离线部署,并完善基于用户自然语言提示的声音编辑等更全面的功能。

相关内容

热门资讯

原创 红... 在这场乌克兰与俄罗斯之间的冲突中,局势正快速发生变化,让人倍感忧虑。近期,位于哈尔科夫州的重要城市库...
到乌镇,见未来!下一站剑指“A... 2025年世界互联网大会乌镇峰会于11月9日落下帷幕。11月10日,四面八方赶来的游客,竞相来到水乡...
AI玩具看着很美,但离成功还很... 作者 |蓝鲨财经社 简安 “所有行业都值得用AI重做一遍。”这句话在当下AI浪潮下重新得到印证,其...
原创 基... 内容提要 2025年,生成式AI工具的突破为金融业务创新提供了新可能。文章提出一种基于DeepSee...