Transformer作者初创公司最新成果:开源新框架突破进化计算瓶颈,样本效率暴涨数十倍
创始人
2025-09-28 21:17:34
0

鹭羽 发自 凹非寺

量子位 | 公众号 QbitAI

开源框架实现样本效率提升数十倍!

同样的任务,以前要上千次的评估,现在150个样本就能完成。

Transformer作者Llion Jones带着自己的初创公司Sakana AI,又来搞事情了。(doge)

最新推出的开源框架——ShinkaEvolve,可以让LLM在自己写代码优化自己的同时,还能同时兼顾效率,be like为进化计算装上一个“加速引擎”。

主要通过三项架构创新,在数学优化、智能体设计、竞争性编程等多个任务上证明了其性能优势。

可以说,性能比肩谷歌的AlphaEvolve,但样本更高效,而且还开源!

下面是更多具体细节。

三大创新技术的引入

想象一下,如果要让LLM通过进化计算找到问题的最优解,需要走多少步?

以AlphaEvolve为例,首先生成一个猜想,然后跑实验验证、吸取教训,再提出更好的猜想……循环往复,不断逼近真理。

这样下来即使是最简单的一个实验也要花费巨大资源,计算成本昂贵且耗时严重。

而ShinkaEvolve框架则针对上述问题,实现了性能与效率的双重程序进化,其核心在于三大关键技术:

  • 平衡探索与利用的亲本抽样技术

该技术通过分层策略与多方法融合保障进化方向的有效性。

框架在已评估程序的基础上,利用 “岛群模型” 将种群分为独立子群并行进化,子群之间也会定期迁移知识,并保留最优解以保障独特性。

具体来说,就是在抽样时先均匀抽取岛群ID,再结合top-K优质解与随机样本选取亲本及启发程序,并通过幂律抽样(按适应度分配概率)与加权抽样(融合性能与新颖性)的多策略模式,平衡已知的良好解决方案和探索新想法。

  • 代码新颖性拒绝抽样

为减少LLM生成重复或低新颖性变异体的无效计算,框架采用嵌入相似度筛选+LLM判优的二级过滤机制。

即首先通过嵌入模型对程序可变异部分进行编码,计算与现有程序的余弦相似度,如果超过阈值(如0.95)则调用额外LLM评估其语义独特性,最终仅保留真正具有新颖性的候选解,以确保探索效率。

  • 基于多臂老虎机的LLM集成选择策略

针对不同LLM在任务与进化阶段的性能差异,框架基于UCB1算法动态调度模型。

也就是为每个LLM设置两个评价指标:记录使用次数的访问计数器,和评价预期表现的得分估计。

然后当模型产生新的改进时,通过对比改进幅度,即时更新评分,再借助指数函数对显著改变强化贡献权重,并归一化得分,实现动态选择当下最合适的LLM。

最终整个框架的运行围绕着抽样、变异、反馈形成闭环,为LLM进化计算提供了全新的降本增效范式。

实现样本效率的数量级提升

另外研究人员还在四个领域(数学优化、Agent设计、竞赛编程、LLM训练)中分别设置对比实验,以验证ShinkaEvolve框架的性能。

首先是在数学优化问题上,实验要求将26个圆放置在一个单位正方形内,使得它们的半径之和最大化,同时确保没有圆重叠,并且所有圆都完全包含在正方形边界内。

结果表明,ShinkaEvolve仅需要150次评估,而AlphaEvolve则需要数千次评估,显著提升了样本效率。

同时,整个进化过程呈现出三个不同的阶段,包括快速发现基本的半径优化策略的快速改进阶段、持续获得增量收益的探索阶段,以及最终的收敛阶段,最终突破了空间利用率与半径总和的平衡瓶颈。

Agent设计上,实验针对2024年AIME竞赛的30道数学推理问题,提出以gpt-4.1-nano为基础模型,最多调用10次LLM查询。

实验发现ShinkaEvolve的框架设计显著优于模型基线,包括简单的单查询代理和复杂的多数投票方法。

其中7次LLM查询即产生最大性能,另外在低污染的2023年和未见过的2025年AIME竞赛题上也同样表现稳定,且适配gpt-4.1-mini、o4-mini等多种模型。

另外在ALE-Bench竞争性编程基准测试上评估ShinkaEvolve,观察其在动态规划、图论和组合优化等问题上的解决能力。

结果显示,10道AtCoder竞赛题的平均得分提升2.3%,其中ahc039任务从第5名升至第2名,且具备竞赛获奖潜力。相关代码的优化也多聚焦细节改进,未依赖大规模重构。

研究人员还在混合专家(MoE)负载均衡损失函数的任务上评估ShinkaEvolve,要求以556M参数MoE进化负载平衡损失(LBL),2.7B参数MoE验证泛化性,最终平衡交叉熵损失与专家均衡性。

结果发现ShinkaEvolve产生的新LBL,在7个下游任务上均表现出更高的准确率、更低的困惑度,而且随着正则化系数λ增大,优势则更显著

最终实验充分证明,该新框架可有效实现样本效率的数量级提升,以及跨不同领域任务的广泛适用性,其开源特性也将进一步降低技术使用门槛。

论文链接:https://arxiv.org/abs/2509.19349

代码链接:https://github.com/SakanaAI/ShinkaEvolve

参考链接:

[2]https://sakana.ai/shinka-evolve/

相关内容

热门资讯

公募提前布局AI医疗赛道!商业... 尽管AI医疗仍处于行业培育阶段,但主题投资的热度已吸引不少公募QDII重仓布局。 对偏爱AI医疗的基...
AI成求职“搭子”,湖南搭建毕... 三湘都市报9月28日讯(文/视频 全媒体记者 王智芳 通讯员 曹婕妤)岗位匹配不精准、信息响应滞后,...
Transformer作者初创... 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 开源框架实现样本效率提升数十倍! 同样的任务,...
阿里通义7款大模型霸榜全球开源... 9月28日,全球最大 AI 开源社区 Hugging Face 公布了新一期模型榜单。 全球前十开源...
AI“精准”匹配舍友,高效背后... ▲由AI依据睡眠习惯、卫生标准和噪声耐受度匹配舍友,效果有待检验。图/央视网视频报道截图 凌晨的大学...
AI博士就业:两极分化明显,招... 【AI博士就业呈现两极分化,普通博士求职艰难】AI博士群体就业出现残酷两极分化,毕业即享百万年薪的仅...
秀我中国|冯唐对谈:AI时代的... AI真的懂创作吗?斜杠作家冯唐一针见血:AI能快速给出“最大公约数”,但它很容易走向平庸。在2025...
县长被开除党籍、撤职、降为正科... 广西河池市纪委监委9月26日消息,河池市商务局原正科级干部廖国璋涉嫌严重违法,目前正接受河池市监察委...
vivo X300 系列手机推... 9 月 28 日消息,vivo 官方今日宣布,vivo X300 系列手机推出全新「AI 电影分镜」...
AI大秀场!在数贸会看见创新未... 9月25日至29日,第四届全球数字贸易博览会在浙江杭州举办。本届数贸会以“在数贸会看见创新未来”为年...