蚂蚁开源 Ring-1T,成就推理、编程、通用智能三冠王
创始人
2025-10-24 11:47:11

AI 能不能真正“动脑子”?这个问题有了新答案。

蚂蚁开源团队推出的 Ring-1T 模型,为这个长期存在的疑问提供了最具说服力的实证。不同于以往依赖海量数据“记忆”答案的语言模型,Ring-1T 试图让 AI 在复杂问题中真正“推理”出答案。

它通过强化学习与多阶段推理机制的结合,使模型能够在反馈中不断修正思路、优化逻辑路径,逐步形成更稳定、更接近人类思维的推理模式。

正是这种从“模仿”到“思考”的转变,让 Ring-1T 成为开源 AI 领域的一次里程碑式突破。接下来,让我们看看这项研究是如何实现的。

论文地址:https://arxiv.org/pdf/2510.18855

通用智能的火花

实验中 Ring-1T 模型在多个高难度推理与数学基准上进行了系统性评估,都取得了突破性的实验成果。作为一个开源的万亿参数思考型模型,Ring-1T 分别在推理、数学、编程及通用智能任务上均展现出卓越的综合能力。

在数学推理能力方面,Ring-1T 在 AIME-2025中取得 93.4 分的成绩,接近人类顶尖选手水平;在 HMMT-2025 中得分 86.72,显示其在跨领域数学推理与高复杂度逻辑演算中的强大能力;在 IMO-2025 模拟评测中达到银牌水平,证明模型能够在需要多步推理与创造性证明的问题中保持高准确率和稳定性。

在编程与算法能力上,模型在 Codeforces 平台测试中获得 2088 分,达到人类程序员的高水平区间。这表明 Ring-1T 不仅能够理解算法逻辑,还能在有限时间内生成高效、可执行的代码,具备良好的算法复杂度控制与问题分解能力。

在通用智能推理任务中,Ring-1T 在 ARC-AGI-v1 中取得 55.94 分,显著超越此前开源模型的平均表现。该结果表明,模型在抽象模式识别、思维迁移与多步认知推理方面具备接近通用人工智能的潜力。

总体而言,Ring-1T 在各项基准测试中表现出优异的稳定性与一致性,尤其在复杂推理与多步逻辑任务中未出现显著性能退化。与此前主要停留在百亿或千亿参数规模的开源模型相比,Ring-1T 在数学、推理与算法任务上全面刷新了开源模型的性能上限,成为新一代开源思考型模型的性能基准。

实验结果还表明,该模型的高性能得益于论文提出的三项关键技术:

IcePop 旨在提升强化学习训练的稳定性,解决训练与推理分布不一致的问题。它通过动态约束与梯度剪切,限制高熵样本的影响,并自适应调整温度参数,使模型在保持探索性的同时更稳定收敛,从而提高推理阶段的可靠性。

C3PO++ 专注于提升长序列推理和大规模 rollout 的效率。该方法采用动态分区和 token 预算机制,将推理过程划分为多个小批次,并利用持久化缓冲区续传未完成任务,有效提升 GPU 利用率和整体训练吞吐量。

而 ASystem 则是支撑万亿参数强化学习的分布式架构。它整合统一的训练与推理运行时、高效的显存管理、快速的参数同步以及安全的隔离执行环境,使大规模模型训练具备更高的并行性、稳定性与容错性。

算法与系统的共振

论文中体现的实验过程,主要以 Ring-1T 思考型模型 为研究对象,研究人员设计了分阶段的训练体系,包括 监督微调(SFT)、推理强化学习(Reasoning RL) 和 通用强化学习(General RL)。研究的主要突破集中在后两个阶段,通过引入 IcePop、C3PO++ 与 ASystem 等方法,实现了在大规模强化学习中的稳定训练与高效推理。

实验中,Ring-1T 模型的训练过程经过精心设计,以在万亿参数规模下同时保证稳定性和效率。团队在训练时采用 AdamW 优化器,其超参数设定为 β₁=0.9、β₂=0.999,权重衰减为 0.01;同时固定了 MoE路由器的偏置项,以保持参数更新的稳定。推理与采样阶段的设置在两个强化学习阶段中保持一致,KL 系数设为 0.0,采样温度为 1.0,以减少训练阶段与推理阶段分布不一致带来的偏差。

在强化学习阶段,Ring-1T 的性能提升主要依赖两项关键技术:IcePop 和 C3PO++。其中,IcePop 的目标是让训练过程更加稳定,避免模型在训练和推理阶段出现表现不一致的情况。

简单来说,它会在每次更新模型参数时,对不稳定或异常的样本进行“筛选”和“削弱”。具体做法是:计算训练阶段与推理阶段之间的概率差异,如果某个 token 的概率偏离太大,就会被部分“掩盖”或降低权重。这样可以防止模型在训练中因为极端样本而产生剧烈波动。

除此之外,IcePop 采用了参数 α=0.5、β=5.0 的范围,也就是只让概率比值处于 [0.5, 5.0] 的样本参与优化。研究人员还测试了不同范围的配置(如 [0.5, 2.0]、[0.4, 5.0]),结果表明默认参数在训练稳定性与性能之间达到了平衡。

而之后的 C3PO++ 则负责优化 rollout 过程,使训练在大规模分布式环境下更加高效,特别是在处理超长序列时。传统方法在遇到很长的推理样本时会拖慢整个训练进程,而 C3PO++ 通过“分段训练”和“并行续传”的方式解决了这个问题。

它设置了一个 token 预算(Φ),当生成的 token 数达到预算上限时,就会立即触发一次更新。系统分为两个池子:推理池(P_infer) 不断生成新样本,训练池(Q_train) 收集已经生成完成的样本并进行更新,这样推理和训练就可以同时进行。

为了防止某些特别长的序列占用资源,C3PO++ 还给每个样本设定了一个 保留期(σ),超时未完成的样本会被清除。而那些还没生成完的样本则会在下一轮继续生成(即“跨迭代续传”)。通过这些机制,C3PO++ 能让训练过程更加流畅高效,不会因为个别长样本卡住整个系统。

总体来说,IcePop 让训练更稳,C3PO++ 让训练更快,两者结合,使 Ring-1T 能在万亿参数规模下保持高效、稳定的强化学习表现。

除此之外,为了让万亿参数的 Ring-1T 模型能够高效稳定地进行训练,研究团队还专门设计了一个分布式强化学习系统—— ASystem。它的核心目标是:在海量 GPU 和超大模型的条件下,让训练、推理和参数更新能够同时、高效地进行,而不会因为系统瓶颈导致中断或效率下降。

ASystem 采用一种叫 SingleController + SPMD 的并行架构。简单来说,就是用一个中央控制器来统一调度成千上万的计算节点,让每个节点都执行相同的训练流程,从而保证全系统的同步与高效协作。

整个系统由四个主要模块组成:

Hybrid Runtime:这是训练和推理的统一执行环境,负责同时管理模型训练和模型测试的计算任务,避免不同系统之间反复传输数据。

AMem:负责 GPU 显存的管理和数据传输。它可以在不同显卡之间切换内存、使用多条数据通道传输信息,并通过共享内存池减少显存占用,从而支持更大的批量训练而不会崩溃。

AState:负责在不同计算节点之间同步模型参数。它采用点对点(P2P)的高效传输方式,只同步必要的部分,能在大约 10 秒内完成万亿级参数的同步。

ASandbox:相当于一个安全的“实验沙盒”,用于执行代码生成、数学计算和逻辑验证等推理任务。它像“函数即服务”一样,可以在隔离环境中同时运行成千上万个推理请求。

在系统设计上,ASystem 将控制逻辑和数据流分离,使训练、推理和奖励计算模块都能独立运行。它还具有“快速失败与自动恢复”机制:如果某个节点出现问题,系统能自动检测并恢复运行,而不会影响整体训练进度。

通过这些设计,ASystem 让 Ring-1T 能够在成千 GPU 的大规模环境中稳定运行,实现高吞吐、高可靠的强化学习训练。雷峰网

开源智能的下一步

过去的模型大多依赖数据去模仿人类答案,但面对复杂推理或逻辑问题时容易出错。Ring-1T 的研究探索了一种新的思路 —— 通过强化学习让模型在反馈中不断调整自己的思考方式,逐步形成更稳定、更清晰的推理能力。

它的另一个意义在于证明了超大规模强化学习是可以实现的。以前这种规模的模型常常训练不稳、成本高、容易崩溃,而这项研究用新的算法和系统设计,找到了一种让万亿参数模型稳定训练的方法。这为后续更复杂、更自主的模型研究提供了可操作的经验。

从更长远的角度看,这项工作也让开源模型有机会在高层次智能上追上闭源系统。它或许不只是一次技术升级,而是让智能研究变得更开放、更有延续性的一步。雷峰网

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

上海凯石还能退费吗?交的服务费... 上海凯石证券服务费如何才能退?退款流程公布!投顾被亏骗真相曝光!简单退款流程! 困扰股民...
广东博众投资可靠吗?误导性宣传...   博众投资交29800买大阳智投靠谱吗?与想象中不同!误导性宣传交费!学会这几步,轻松办理退费
金.证投顾股民买了炒股会员服务... 金.证投顾股民买了炒股会员服务,被误导交费后亏损皆可退费! 证券投资咨询行业的本质在于为投资者提供公...
上海汇正财经580元年服务费怎...   汇正财经确实是一家正规的投顾公司。但这并不能说明他们公司的宣传就符合实际,从案例中不难看出,业务...
九方智投实战班怎么样?误导夸大...   九 方智投服务费退费多久到账?误导性宣传!夸大收益诱导投资者!退费有戏了!这些关键证据你可千万别...
中广云智投2999元3个月可靠... 中广云智投2999元3个月可靠不投顾公司承诺收益全是坑?服务费退款成功案例大公开!投资有风险,投资需...
上海中和应泰证券服务费怎么退?...   上海中和应泰证券服务费怎么退?推荐股票亏损严重怎么办,被骗亏损真相曝光已退费!  上海中和应泰证...
指南针推荐股票咋样投顾“名师”...   指南针推荐股票咋样投顾“名师”带你频繁买卖,亏了九万服务费,教你合规退!  指南针股票准不准别再...
中富金石可以退款吗?误导费!投...   中富金石可以退款吗?误导费!投顾服务不尽如人意?依法依规,争取合理退费!  中富金石服务费是可以...
益盟操盘手股票准不准想退投顾服... 益盟操盘手股票准不准想退投顾服务费?先看这篇避坑攻略,省时又省力!  益盟操盘手不可靠,益盟操盘手不...
云南 约牛可靠吗投顾交的钱怎...   云南 约牛可靠吗投顾交的钱怎么追回?能追,法律条款在这儿,按这几步走准没错! 云南约牛软...
四川大决.策投顾公司诱导股民交... 四川大决.策投顾公司诱导股民交费,别再忍气吞声,服务费这样做能退!证券投资咨询行业的本质在于为投资者...
万隆证券天价服务费怎么退?行业... 万隆证券收费3888元可靠吗?虚假宣传欺诈消费者荐高位股!误导性宣传坑惨股友!专业人士教你一招退费<...
浙江 同花 顺业务员虚假宣...   浙江 同花 顺业务员虚假宣传欺骗消费者,投顾公司解析,股友欲哭无泪!可追回  在浙江同花顺交...
上海亚商投顾可信吗? 宣传与实...   上海亚商投顾可信吗? 宣传与实际两回事!服务费已退!  上海亚商投顾服务费可以退。刘振贤、曾宪瑞...
汇正财经炒股帮可靠吗?误导性宣...   汇正财经确实是一家正规的投顾公司。但这并不能说明他们公司的宣传就符合实际,从案例中不难看出,业务...
神光 投顾业务员虚假宣传欺骗...   神光 投顾业务员虚假宣传欺骗消费者,投顾公司解析,股友欲哭无泪!可追回  投资有风险,投资需谨...
北京天相财富是正规的荐股平台吗...   北京天相财富是正规的荐股平台吗误导费!投顾服务缩水?主动退费,顺利退费有方法 北京天相财富...
钱坤投资被骗, 行业黑幕被揭开...   钱坤投资被骗, 行业黑幕被揭开!服务费能挽回!  核心结论先行:四川钱坤证券高额服务费,符合条件...
容 维 证券可靠吗荐股... 容 维 证券可靠吗荐股不赚反亏欺骗股友!可以能退!怎么退款流程及注意事项公布!误导性宣传欺骗股民...
杭州顶点八分公司是真的吗?误导...   杭州顶 点财经八分公司怎么样?只讲赚不说亏?误导性宣传!别再浪费时间!退费路径曝光  ...
巨丰投顾可以退款吗?虚假包装投...   巨丰投顾可以退款吗?虚假包装投顾资质诱导缴费,简单的退费流程公布!  巨丰投顾服务费是可以退的。...
上海凯石证券29800元服务费...   上海凯石证券29800元服务费是真的吗? 虚假宣传欺诈消费者荐高位股!误导性宣传坑惨股友!专业人...
股掌柜2980怎么退?荐股老师... 股掌柜证券财富赢家亏损内幕大曝光!投顾服务不靠谱,背后真相曝光已退费。荐股收费常见陷阱公开。
湖南金证投顾交了7万8怎么退钱...   湖南金证投顾交了7万8怎么退钱?真相曝光,交费操作都是亏多赚少!荐股亏损教你一步追回!  核心疑...