阿里千问3发布并开源,参数仅为DeepSeek-R1三分之一
创始人
2025-04-29 20:16:04

新浪科技讯 4月29日上午消息,阿里巴巴开源了新一代通义千问模型Qwen3(简称千问3),参数量仅为DeepSeek-R1的1/3,宣布成本大幅下降,性能超越R1、OpenAI-o1等领先模型。千问3是一个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,极大节省了算力消耗。

据了解,千问3采用混合专家(MoE)架构,总参数量235B,激活仅需22B。千问3预训练数据量达36T tokens,并在后训练阶段经过多轮强化学习,将非思考模式无缝整合到思考模型中。千问3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强。性能大幅提升的同时,千问3的部署成本还大幅下降,仅需4张H20即可部署千问3满血版,显存占用仅为性能相近模型的三分之一。(文猛)

责任编辑:郝欣煜

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com

相关内容

热门资讯

华为哈勃入股语音AI大模型公司... 企查查APP显示,近日,深圳市安菲翁科技有限公司发生工商变更,新增华为旗下深圳哈勃科技投资合伙企业(...
合盛硅业涨6.67%,开源证券... 今日合盛硅业(603260)涨6.67%,收盘报58.51元。 2025年9月17日,开源证券研究员...
原创 金... 11月8日,国民党主席郑丽文在台北马场町出席“白色恐怖政治受难者追思慰灵大会”,并向吴石将军鞠躬献花...
清华团队开源DISCOVERS... 当前端到端机器人学习目前受制于三个突出问题:仿真环境还原真实场景的能力不足,造成“仿真到现实(Sim...
奥尔特曼:OpenAI计划直接... 11 月 10 日消息,行业媒体 Business Insider 于 11 月 7 日发布博文,报...