阶跃星辰开源Deep Think新框架,小模型解锁百万Token测试时计算
创始人
2025-12-15 16:15:12

8B 模型在数学竞赛任务上超越 GPT-5!

阶跃星辰正式推出并行协同推理(PaCoRe, Parallel Coordinated Reasoning),这是一个全新的训练和推理框架,让大模型的能力不再受限于线性思维链的上下文窗口大小(Context Window)和处理速度,而是基于大规模并行协同的方式,让模型进行前所未有的广度和深度思考。

强大性能的 Gemini Deep Think 模式仅隐约透露其采用“并行思考”扩展测试时计算的思路;而 PaCoRe 以卓越的表现验证了大规模扩展测试时计算的有效性,并完整开源模型,训练数据,推理管线从而加速该领域的研究与创新。

基于该框架,小模型亦能解锁百万级 Token 测试时计算(Test-Time Compute)。

经过大规模、基于结果的强化学习(Outcome-based RL)训练,阶跃星辰研究团队的 PaCoRe-8B 模型掌握了综合发散性推理轨迹的能力。在 HMMT 2025 数学基准测试中,它取得了 94.5 的高分,一举超越了 GPT-5 的 93.2 分。这一成绩的取得,得益于模型在解决单个问题时,能够有效利用高达两百万 Token 的计算量。

长程推理是人类智力皇冠上的明珠。正如人类需要数月甚至数年的专注思考来攻克最棘手的难题,通用人工智能(AGI)也必须在推理阶段大幅扩展其计算规模,PaCoRe的研究进展标志着在这个方向上迈出了坚实的一步。

论文链接:https://github.com/stepfun-ai/PaCoRe/blob/main/pacore_report.pdf

GitHub:https://github.com/stepfun-ai/PaCoRe

Hugging Face:https://huggingface.co/stepfun-ai/PaCoRe-8B

PaCoRe 框架

标准的思维链(Chain-of-Thought)推理与上下文容量是强耦合的:一旦窗口填满,推理就必须停止。PaCoRe 通过将推理的主要驱动力从 “串行深度” 转移到 “并行协同的广度”,成功解耦了这种关系。

图 1:并行协同推理(PaCoRe)的性能表现。

左图: 在 HMMT 2025 上,PaCoRe-8B 展示了惊人的测试时扩展(Test-Time Scaling)能力。通过增加并行轨迹(Parallel Trajectories)和协同轮次(Coordinated Rounds),性能稳步提升,最终超越了 GPT-5。右图: 在 LiveCodeBench 上,普通的 RLVR-8B 模型无法利用增加的测试时计算量,而 PaCoRe 有效地解锁了这种综合能力,随着计算量的增加带来了显著的性能提升。

推理机制 (Inference)

图 2:PaCoRe 的推理流程。

PaCoRe 的核心是一个按轮次运行的迭代消息传递架构。其工作流程如下:

3.迭代协同(Iterative Coordination): 这些精简消息成为下一轮的上下文,使模型能够在多次迭代中修正理解、发现共识并纠正错误。为了确保收敛,最后一轮仅使用单一轨迹,生成最终的精简消息作为 PaCoRe 推理流水线的输出。

这种循环机制使得系统能够将 “有效测试时计算量(Effective TTC)”—— 即所有轨迹的 Token 总和 —— 扩展到远远超出模型物理上下文窗口限制的程度。

训练方法 (Training)

实现这一框架的主要挑战在于将模型从简单聚合孤立推理转移为主动合作。未经训练的推理模型常常在具有简单解结构的问题上使用诸如多数表决这样的简单规则,而在更加多样解的问题上,模型常常展现出 孤立推理 的现象:尽管在上下文中接收到了来自并行分支的丰富见解,但模型往往会忽略它们,试图从头开始重新解决问题。

为了克服这一问题,研究团队将综合阶段视为一个情景式强化学习环境。我们采用大规模、基于结果的 RL 来教会模型推理综合(Reasoning Synthesis) 能力:即审查并行分支、调和相互冲突的证据并提炼出统一解决方案的能力。

通过过滤训练数据,排除那些仅靠启发式规则就能解决的简单问题,我们迫使模型发展出真正的综合能力,将其从一个孤立的求解者转变为一个高效的协同者。

图 3:PaCoRe 训练动力学。

实验结果

研究团队将 PaCoRe-8B(初始化自基于 Qwen3-8B-Base 的内部后训练模型)与当前最具代表性的前沿推理模型进行了对比评估。

前沿级的性能表现

结果表明,并行协同机制使 8B 模型能够通过大规模扩展 TTC,获得远超标准解码限制的显著收益,在一些最复杂的数学和代码基准测试中超越了最先进的系统。

“综合” 能力的涌现

图 4:训练过程中模型输出中 “综合” 相关语言特征的演变。

研究团队绘制了 PaCoRe 训练期间,数学和代码任务生成解决方案中 “交叉检查” 类词汇(包括 'reference', ' 参考 ', 'Ref

', 'ref

')的频率。训练在这两个领域都激发并放大了这种综合能力。值得注意的是,模型最初在代码任务上很少进行交叉检查,这佐证了图 1 中代码任务在 PaCoRe 训练前测试时扩展性差的现象。

研究团队通过追踪训练过程中 “交叉检查”(cross-checking)语言标记的普遍性来探究 PaCoRe 的底层机制。如上图所示,基于结果的强化学习推动了这种行为在两个领域的稳步上升。模型显式地学会了引用同伴的消息(Referencing peer messages),这种行为在未经 PaCoRe 训练的模型中几乎不存在。这证实了 RL 根本性地改变了推理动态,使模型能够有效地利用大规模并行计算。

训练数据的通用有效性

除了框架本身,研究团队还发现为 PaCoRe 构建的训练语料库是一种密度极高的学习资源。经验观察表明,将我们发布的数据集作为标准 RLVR 的主要基底,也能带来稳健的性能提升。这表明我们的问题集 —— 经过精心筛选以要求真正的综合能力 —— 是训练通用强推理模型的高效催化剂。

结论与未来方向

PaCoRe 建立了一条通往大规模测试时扩展(Test-Time Scaling)的无限路径。通过围绕 “并行协同” 构建推理架构并针对 “综合能力” 进行训练,研究团队以将测试时计算扩展到数百万 Token,从而允许较小的开放权重模型在复杂任务上超越专有的前沿系统。

阶跃星辰团队将发布模型权重、训练数据和推理代码,以加速社区的研究。

展望未来,团队将 PaCoRe 视为通向以下更大目标的基础性一步:

1.扩展极限(Scaling the Extremes): 计划将 PaCoRe 应用于更强大的基础模型,扩展任务领域,并进一步扩大广度(并行轨迹)和深度(协同轮次),以攻克目前被认为无法解决的挑战。

2.提升 Token 智能密度(Boosting Token Intelligence Density): 虽然目前通过 “量” 来扩展,但研究团队的目标是最大化每一个计算单元的效用。这包括通过更好的组织、合作和轨迹间的劳动分工,实现更高效的并行探索。

3.涌现多智能体智能(Emergent Multi-Agent Intelligence): 研究团队有兴趣探索综合策略(Synthesis Policy)与消息传递机制的联合训练,构建一个极简却丰富的协作多智能体学习环境,这将是研究涌现式沟通、自组织和群体智能的宝贵试验场。

4.衔接预训练与后训练的 “衔尾蛇”(Ouroboros): 研究团队打算利用 PaCoRe 流程开发先进的合成数据生成技术,以反哺并改进当前的预训练和后训练过程,形成良性循环。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

淘宝达人 基本信息淘宝达人是一群活跃于淘宝上的本土明星,他们爱挑、会买爱分享,他们会被媒体轮番轰炸,他们会成为...
股掌柜交了费怎么退费?揭秘投顾... 股掌柜交了费怎么退费?揭秘投顾服务心中谜团,真相震惊世人!已退款!  在股掌柜交了服务费可以退!教你...
广东聚沃贸易有限公司原始股认购... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
买刺梨工坊“刺梨富硒原液”“刺... 作为普通投资者可以拿到即将上市公司的原始股权?为什么这样的“好机会”要在群里卖给普通的投资者?把这个...
财合联盟直播间陈斌战略配售居.... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
上海海能投资服务费退费规定详情... 上海海能投资服务费退费规定详情,一对一128000私人定制不靠谱,受害者已维权退费!投资有风险,投资...
居.易酒业(深圳)集团股权上市... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
国诚推荐股票靠谱吗?退费方式指... 国诚推荐股票靠谱吗?退费方式指引:揭露荐股服务宣传与实际差距大,真实案例成功退款!核心问题:在国诚投...
福润私董会周聪老师直播间股权投... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
中志浩刺梨产业开发(贵州)有限... 随着“人无股权不富”的口号在市场上广泛传播,许多人都看到了股权投资带来的财富机遇。然而,这背后也催生...
成都华太电熊猫科技有限责任公司... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
上海九方云智投公司正规吗?不靠... 上海九方云智投公司正规吗?不靠谱不正规!真相令人愤怒不已!可退费!  在上海九方交了服务费可以退!教...
直播间贵州中科分子生物科技有限... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
贵州刺梨工坊科技股权投资上市是... 作为普通投资者可以拿到即将上市公司的原始股权?为什么这样的“好机会”要在群里卖给普通的投资者?把这个...
广东聚沃贸易有限公司股权上市分... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
居.易酒业(深圳)集团有限公司... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
江苏虞姬农业科技有限公司股权上... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
四川华太以色信息科技有限公司股... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。“原始股”因承载“...
杭州顶点财经服务费退费流程?误... 杭州顶点财经服务费退费流程?误导性宣传诓骗投资者有法可依可退费!
深圳国诚投资咨询有限公司靠谱吗... 深圳国诚投资咨询有限公司靠谱吗?不要相信投顾任何机构,没有盈利且被割韭菜,退费公开!核心问题:在国诚...
汇正财经退款靠谱吗?不靠谱不正... 汇正财经退款靠谱吗?不靠谱不正规!真相令人愤怒不已!可退费!  在上海汇正财经交了服务费可以退!教你...
深圳颐和品牌运营股权投资能上市... 系列产品经销商战略配售原始股投资是真的吗?买产品赠股靠谱吗?深圳市兰亭网络科技啥时候上市?常阳公益会...
深圳颐和品牌运营原始股投资分红... 作为普通投资者可以拿到即将上市公司的原始股权?为什么这样的“好机会”要在群里卖给普通的投资者?把这个...
厦门日月光新能源科技有限公司股... 随着“人无股权不富”的口号在市场上广泛传播,许多人都看到了股权投资带来的财富机遇。然而,这背后也催生...
老李鸿志投研战略配售中签居.易... 系列产品经销商战略配售原始股投资是真的吗?买产品赠股靠谱吗?深圳市兰亭网络科技啥时候上市?常阳公益会...