Transformer作者初创公司最新成果：开源新框架突破进化计算瓶颈，样本效率暴涨数十倍_科学探索

Transformer作者初创公司最新成果：开源新框架突破进化计算瓶颈，样本效率暴涨数十倍

创始人

2025-09-28 21:17:34

鹭羽发自凹非寺

量子位 | 公众号 QbitAI

开源框架实现样本效率提升数十倍！

同样的任务，以前要上千次的评估，现在150个样本就能完成。

Transformer作者Llion Jones带着自己的初创公司Sakana AI，又来搞事情了。（doge）

最新推出的开源框架——ShinkaEvolve，可以让LLM在自己写代码优化自己的同时，还能同时兼顾效率，be like为进化计算装上一个“加速引擎”。

主要通过三项架构创新，在数学优化、智能体设计、竞争性编程等多个任务上证明了其性能优势。

可以说，性能比肩谷歌的AlphaEvolve，但样本更高效，而且还开源！

下面是更多具体细节。

三大创新技术的引入

想象一下，如果要让LLM通过进化计算找到问题的最优解，需要走多少步？

以AlphaEvolve为例，首先生成一个猜想，然后跑实验验证、吸取教训，再提出更好的猜想……循环往复，不断逼近真理。

这样下来即使是最简单的一个实验也要花费巨大资源，计算成本昂贵且耗时严重。

而ShinkaEvolve框架则针对上述问题，实现了性能与效率的双重程序进化，其核心在于三大关键技术：

平衡探索与利用的亲本抽样技术

该技术通过分层策略与多方法融合保障进化方向的有效性。

框架在已评估程序的基础上，利用 “岛群模型” 将种群分为独立子群并行进化，子群之间也会定期迁移知识，并保留最优解以保障独特性。

具体来说，就是在抽样时先均匀抽取岛群ID，再结合top-K优质解与随机样本选取亲本及启发程序，并通过幂律抽样（按适应度分配概率）与加权抽样（融合性能与新颖性）的多策略模式，平衡已知的良好解决方案和探索新想法。

代码新颖性拒绝抽样

为减少LLM生成重复或低新颖性变异体的无效计算，框架采用嵌入相似度筛选+LLM判优的二级过滤机制。

即首先通过嵌入模型对程序可变异部分进行编码，计算与现有程序的余弦相似度，如果超过阈值（如0.95）则调用额外LLM评估其语义独特性，最终仅保留真正具有新颖性的候选解，以确保探索效率。

基于多臂老虎机的LLM集成选择策略

针对不同LLM在任务与进化阶段的性能差异，框架基于UCB1算法动态调度模型。

也就是为每个LLM设置两个评价指标：记录使用次数的访问计数器，和评价预期表现的得分估计。

然后当模型产生新的改进时，通过对比改进幅度，即时更新评分，再借助指数函数对显著改变强化贡献权重，并归一化得分，实现动态选择当下最合适的LLM。

最终整个框架的运行围绕着抽样、变异、反馈形成闭环，为LLM进化计算提供了全新的降本增效范式。

实现样本效率的数量级提升

另外研究人员还在四个领域（数学优化、Agent设计、竞赛编程、LLM训练）中分别设置对比实验，以验证ShinkaEvolve框架的性能。

首先是在数学优化问题上，实验要求将26个圆放置在一个单位正方形内，使得它们的半径之和最大化，同时确保没有圆重叠，并且所有圆都完全包含在正方形边界内。

结果表明，ShinkaEvolve仅需要150次评估，而AlphaEvolve则需要数千次评估，显著提升了样本效率。

同时，整个进化过程呈现出三个不同的阶段，包括快速发现基本的半径优化策略的快速改进阶段、持续获得增量收益的探索阶段，以及最终的收敛阶段，最终突破了空间利用率与半径总和的平衡瓶颈。

在Agent设计上，实验针对2024年AIME竞赛的30道数学推理问题，提出以gpt-4.1-nano为基础模型，最多调用10次LLM查询。

实验发现ShinkaEvolve的框架设计显著优于模型基线，包括简单的单查询代理和复杂的多数投票方法。

其中7次LLM查询即产生最大性能，另外在低污染的2023年和未见过的2025年AIME竞赛题上也同样表现稳定，且适配gpt-4.1-mini、o4-mini等多种模型。

另外在ALE-Bench竞争性编程基准测试上评估ShinkaEvolve，观察其在动态规划、图论和组合优化等问题上的解决能力。

结果显示，10道AtCoder竞赛题的平均得分提升2.3%，其中ahc039任务从第5名升至第2名，且具备竞赛获奖潜力。相关代码的优化也多聚焦细节改进，未依赖大规模重构。

研究人员还在混合专家（MoE）负载均衡损失函数的任务上评估ShinkaEvolve，要求以556M参数MoE进化负载平衡损失（LBL），2.7B参数MoE验证泛化性，最终平衡交叉熵损失与专家均衡性。

结果发现ShinkaEvolve产生的新LBL，在7个下游任务上均表现出更高的准确率、更低的困惑度，而且随着正则化系数λ增大，优势则更显著。

最终实验充分证明，该新框架可有效实现样本效率的数量级提升，以及跨不同领域任务的广泛适用性，其开源特性也将进一步降低技术使用门槛。

论文链接：https://arxiv.org/abs/2509.19349

代码链接：https://github.com/SakanaAI/ShinkaEvolve

参考链接：

[2]https://sakana.ai/shinka-evolve/

成果实验抽样模型初创公司样本进化瓶颈突破框架效率 https

上一篇：阿里通义7款大模型霸榜全球开源前十，千问Qwen3-Omni登顶

下一篇：AI成求职“搭子”，湖南搭建毕业生求职“智慧桥梁”

Transformer作者初创公司最新成果：开源新框架突破进化计算瓶颈，样本效率暴涨数十倍

相关内容

热门资讯