快慢思考不用二选一!华为开源7B模型实现自由切,精度不变思维链减近50%
创始人
2025-09-10 16:42:40

允中 发自 凹非寺

量子位 | 公众号 QbitAI

国产自研开源模型,让模型不用在快思考和慢思考间二选一了!

华为最新发布openPangu-Embedded-7B-v1.1,参数只有7B,却身怀双重“思维引擎”

要知道,长期以来,大模型快思考与慢思考模式不可兼得,这成为业界的一大痛点。在当前大模型混战中,各家巨头都在寻求破局之道,但此前开源领域一直缺乏一款可自由切换快慢思维模式的模型。

要快,还是要慢?AI在面对不同难度的问题时也有“选择困难症”。

而现在,openPangu-Embedded-7B-v1.1,通过渐进式微调策略独特的快慢思考自适应模式,既支持手动切换“快思考”或“慢思考”模式,也能根据问题难度自动在两种思维模式间无缝转换。

简单问题它秒答如飞,复杂任务它深思熟虑,一举填补了开源大模型在这一能力上的空白,让效率与准确率实现双赢。

在通用、数学、代码等多个权威评测中,该模型精度相较于此前模型大幅提升,且引入模式自动切换并没有牺牲精度。在CMMLU等基准中,openPangu-Embedded-7B-v1.1保持精度的同时,平均思维链长度缩短近50%

模型现已在GitCode开源。

所以,openPangu-Embedded-7B-v1.1究竟是如何做到的?华为盘古团队在模型训练策略上又有哪些创新?

渐进式微调策略:像人一样“进阶”学习

众所周知,大模型往往需要海量训练才能具备强大的推理能力。然而,openPangu团队并未采取一味“填鸭式”的训练方式,而是采用了一种渐进式微调(SFT,Iterative Distillation)策略,模拟人类逐步进阶的学习过程

通过精心设计的迭代训练,让模型在每一步都处于“适度挑战”的学习区间,能力稳步提升。

具体来说,团队将渐进式微调划分为三个循序渐进的阶段,每一步都让模型获得针对性的提升:

第一步:合理选题,保持适度挑

在每一轮训练迭代中,模型会根据自身当前能力对候选训练样本进行难度评分,优先挑选难度适中、不偏易也不偏难的题目来训练。这样确保模型始终在与能力相匹配的挑战中学习,既不会因过于简单停滞不前,也不会因过难而无法收获,步步为营拓展能力边界。

第二步:归纳总结,稳固已有知识

完成一轮训练后,产生的多个模型版本(不同检查点)不会简单取舍,而是通过参数增量融合(inter-iteration merging)合并成统一的模型。这一步相当于将新学到的知识与原有能力进行“汇总融合”,让模型的认知更加稳固,避免遗忘过去学到的本领。

第三步:持续提升,扩展能力边

随着上述循环不断进行,模型积累的知识与技能越来越丰富,自身能力水涨船高,能够胜任更复杂的数据训练。这时,它进入了更高水平的“拉伸区”,可以挑战此前无法解答的难题。模型能力的提升又反过来推动下一轮更高难度的数据选择,形成一个不断进化的良性循环。

通过这样的渐进式训练方式,openPangu-Embedded-7B-v1.1不再是被动接受知识的“填鸭式”学习者,而是化身为一个能够持续进化的学习者。实验结果表明,这一策略让模型的推理过程更加稳定,泛化表现更加强劲。

快慢自适应机制:两阶段课程,从“手动挡”进阶“自动挡”

相比之前开源的openPangu-Embedded-7B-v1,此次开源的openPangu-Embedded-7B-v1.1模型最大的亮点,就是引入了独特的快慢思考自适应模式,使得模型可以自动根据任务难度选择使用快思考还是慢思考进行解答。

相比4月先行披露的技术报告,团队的快慢思考切换训练方案进行了大幅升级,从方案上演进为了数据质量驱动的学习策略快慢思考切换的范围也从数学任务扩展到了一般任务

第一阶段:教模型区分快慢。

在这个“低难度课程”阶段,研究团队首先通过数据构造,让模型明确什么是“快思考”、什么是“慢思考”。

他们精心构建了一个混合训练数据集:在用户提问(Prompt)中附加特殊的标识符,直接告诉模型该用快思考还是慢思考来回答。通过在这个带有明确指示信号的数据上训练,模型学会将特定输入模式与对应的思维方式、回答风格建立关联。

可以说,这一步犹如给模型装上“手动变速箱”,明确划定了两种思考模式的界限,是一堂扎实的“热身课”,确保模型具备基本的快慢思维切换意识。

第二阶段:自主学会切换。

当模型已经掌握了显式控制的本领后,就进入更具挑战性的“进阶课程”。这一阶段不再提供外部快/慢提示,而是要求模型根据问题本身自行判断何时该快、何时该慢。

从简单样本过渡到复杂样本,团队设计了一套数据质量驱动的自优化训练策略:先用第一阶段训练好的模型作为“教练”,为同一问题生成多样化的解答链路,然后从中挑选质量最高的解答,再以这些优质解答来有选择地微调模型。

通过这种“从优录取”的训练方式,模型逐渐学会了从复杂问题中自主推断最优思考路径,无需明确指令就能自动在快/慢模式间切换。可以说,这一步为模型装上了智能“自动变速箱”——它告别了对外部指令的依赖,实现了内在驱动的决策。这一阶段的训练难度显著高于第一阶段,因为模型需要领悟更深层的隐含逻辑,而不再是简单遵循提示符号。

经过两个阶段环环相扣的“课程学习”,openPangu-Embedded-7B-v1.1完成了从外部信号驱动的显式切换到内部能力驱动的隐式切换的蜕变,大幅提升了模型在复杂推理任务中的灵活性与自主性。

最终,经过这一套训练流程,新模型成功解锁了快慢思考模式的双模式切换——既支持用户手动指定思考模式,也能在无需人为干预下自动选择最合适的推理方式。

快慢自适应减少简单任务Token量三到五成

如此复杂的训练设计,最终效果如何?openPangu-Embedded-7B-v1.1在多个权威评测上交出了令人欣喜的答卷。

首先是精度的大幅提升。相较前代模型v1版本,新模型在通用、数学、代码等各类数据集上全面超越了自己过去的成绩其中手的数学难题数据集(如AIME挑战)上,v1.1版本取得了远超v1的领先表现

更难得的是,在采用自适应快慢思考模式下,新模型在复杂任务上的准确率依然保持与纯“慢思考”情况下几乎相同的水准,即引入自动切换并没有牺牲精度。

其次在响应效率上,成果同样令人眼前一亮。对于简单问题,openPangu-Embedded-7B-v1.1能够自动切换为快思考模式,大幅缩短不必要的冗长推理过程

在某些基准测试中(例如中文综合知识测试集CMMLU)新模型在保持精度基本不变的前提下,平均输出的思维链长度减少了近50%!也就是说,同一道简单题,它给出的解释步骤几乎缩短了一半,直接带来响应效率的翻倍提升。

与此同时,对于诸如AIME、LiveCodeBench这类复杂度极高的难题,模型依然会老老实实“慢思、给出详尽的逐步推理,从而确保精度与只用慢思考模型相当。简单题不啰嗦、难题不放弃,这种智能切换让模型在速度和精度之间取得了很好的平衡。

边缘AI部署利器:1B小模型性能拉满

值得惊喜的是,openPangu系列近期不仅升级了7B模型,还推出了一款专为边缘AI部署优化的轻量级模型——openPangu-Embedded-1B

顾名思义,它只有十亿参数,但却通过多项技术加持,实现了“小体量也有大能量”。

在软硬件协同设计方面,openPangu-Embedded-1B针对华为昇腾端侧AI硬件进行了架构优化,充分利用芯片特性,大幅降低推理延迟、提升资源利用率。

与此同时,华为团队采用多阶段训练策略(包括从零开始的预训练、多样化数据的课程式微调、离线同策略知识蒸馏以及多源奖励的强化学习等),全面挖掘模型潜力,显著增强了模型在各类任务上的表现。

得益于以上创新,这款仅10亿参数的小模型取得了性能与效率的高度协同,在多个权威评测中成绩亮眼。

据公开数据显示,openPangu-Embedded-1B创下了国内1B级模型的新标杆,其整体平均成绩不仅全面领先其他同规模模型,甚至追平了更大参数模型Qwen3-1.7B的水平

这充分体现了出色的参数级性能比:用更小的模型实现了媲美大模型的效果,为国产自研大模型在资源受限场景下的探索提供了新的方向。

综上,华为 openPangu-Embedded-7B-v1.1 的发布为当前热度较高的大模型领域带来了不一样的思路。作为参数规模为 7B 的轻量级模型,它通过渐进式微调和双阶段训练方法,实现了快慢思考模式的自由切换,在效率与精度之间找到了较好的平衡点。

无论是面向边缘部署需求的小模型,还是追求复杂推理能力的通用模型,盘古系列的持续演进都展现出国产大模型的创新活力。

未来,这一具备“快慢思考”特性的模型,有望在更多实际应用场景中发挥价值。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

全文搜索引擎工作原理 一、简介全文检索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中...
惊异』北京指南针科技服务费可以... 惊异』北京指南针科技服务费可以退吗?误导性宣传诱导股友交费,退费前必看避坑指南!投资有风险,投资需谨...
必看』万隆证券缴费亏损是被骗了... 必看』万隆证券缴费亏损是被骗了吗?被误导交费后亏损皆可退费!退款流程公布及注意事项如下投资有风险,投...
慎重』高能智投服务费怎么退?误... 慎重』高能智投服务费怎么退?误导费!揭穿投顾乱象,拿回属于你的钱投资有风险,投资需谨慎!针对网上素未...
震惊』福建中讯证券承诺收益全是... 震惊』福建中讯证券承诺收益全是假!服务费可退回投资有风险,投资需谨慎!针对网上素未谋面的网友、网上老...
被骗』广东博众智能科技怎么样交... 被骗』广东博众智能科技怎么样交钱前“涨停板”,交钱后“跌停板”,退费全过程分享!投资有风险,投资需谨...
震惊』股掌柜证券夸大不实宣传诱... 震惊』股掌柜证券夸大不实宣传诱导消费者,股民分享真实退费经历!投资有风险,投资需谨慎!针对网上素未谋...
被骗』成都汇阳投资顾问因违规荐... 被骗』成都汇阳投资顾问因违规荐股遭到股民投诉!误导性宣传骗取股民服务费!投资者真实被骗经历讲述!一招...
震惊』福建中讯证券推荐的股票怎... 震惊』福建中讯证券推荐的股票怎么样?虚假宣传欺骗股民不可信,承诺牛股不可信投资有风险,投资需谨慎!针...
惊异』汇正财经是正规的吗老年股... 惊异』汇正财经是正规的吗老年股民维权无门,专业协助快速实现退款成功投资有风险,投资需谨慎!针对网上素...
震惊』汇正财经是正规的吗老年股... 震惊』汇正财经是正规的吗老年股民维权无门,专业协助快速实现退款成功投资有风险,投资需谨慎!针对网上素...
被骗』股掌柜证券坑骗广大股民去... 被骗』股掌柜证券坑骗广大股民去购买服务,会员服务很垃圾,可退款!投资有风险,投资需谨慎!针对网上素未...
震惊』海能投顾靠谱吗?背后圈套... 震惊』海能投顾靠谱吗?背后圈套细思极恐!股友愤怒不已!已维权退费!投资有风险,投资需谨慎!针对网上素...
震惊』广东科德投资顾问推荐的股... 震惊』广东科德投资顾问推荐的股票, 套路太深!荐股亏损后服务费已退!_投资有风险,投资需谨慎!针对网...
被骗』成都汇阳投资顾问服务费怎... 被骗』成都汇阳投资顾问服务费怎么退推荐的股票却一直跌?别再忍了,我们有办法退费!投资有风险,投资需谨...
国诚投顾怎么样?误导夸大荐股实... 国诚投顾怎么样?误导夸大荐股实力!荐股实为陷阱!投资者真实经历讲述!有法可依可退!流程公布!国诚投顾...
国诚投顾推荐股票亏损严重?服务... 国诚投顾推荐股票亏损严重?服务费退费方法来了,别再被傻傻割韭菜!国诚投顾服务费是可以退的。如果认为国...
顶点财经谱吗?误导性宣传推荐烂... 顶点财经谱吗?误导性宣传推荐烂股!收费服务承诺高收益全假象,可退费!当你在网上看到“躺着赚钱”的证券...
顶点财经可以退吗?误导性宣传!... 顶点财经可以退吗?误导性宣传!交费前后完全不一样!投顾服务费真相曝光!全是套路!已退费!当你在网上看...
顶点财经可以退款吗?误导性宣传... 顶点财经可以退款吗?误导性宣传!暗藏套路!暗示收益诱导升级服务亏损!退钱步骤要知道当你在网上看到“躺...
顶点财经荐股可靠吗?交费后可申... 当你在网上看到“躺着赚钱”的证券投资广告时,一定要提高警惕,因为这很可能是虚假宣传的陷阱。 近年...
博众投顾服务费怎么退?简单退费... 博众投顾服务费怎么退?简单退费步骤已公开!夸大宣传误导交费,依法可退回费用!在证券投资领域,服务费纠...
博众投资推荐的股票可靠吗?收费... 博众投资推荐的股票可靠吗?收费推荐垃圾股被曝光,退款背后隐藏的真相公开!在证券投资领域,服务费纠纷频...
阿牛智投怎么样?不可信,给推荐... 阿牛智投怎么样?不可信,给推荐的股票几乎都是垃圾股,亏损严重可退款啦!“以为找了专业投顾机构当靠山,...
阿牛智投交了服务费可以退吗? ... 阿牛智投交了服务费可以退吗? 投顾服务其实是套路!股民被诱导缴费,可以试试这样退费!“以为找了专业投...