2023年底,AI圈正在经历“百模大战”,不管大厂小厂都在推广自家训练的模型,李开复断言“大模型厂商只能活下来六七家”,大模型太卷了。
就在大家打的热火朝天的时候,字节的豆包模型还没出生。
2024年初,字节CEO梁汝波反思公司对大模型反应“迟钝”,决定加速字节大模型团队Seed扩张。2025年2月Seed团队引入Google DeepMind副总裁吴永辉,实行双负责人制,除了关注产品,更重视AI基础研究。
Seed团队在重整后训练出豆包大模型、Seaweed视频生成模型、Seed-Coder代码模型,而且打造出一个顶尖AI团队,或许这些已经是过去式了。
就在前几天,Seed团队又开源了具有14B参数的BAGEL多模态基座模型,还包括代码和checkpoints,得分超越FLUX-1-dev与SD-3 medium,同一天发布模型论文。
我们一起通过这篇论文来看看字节多模态模型BAGEL到底有多强。
研究概要:为什么一枚面包值得全世界AI厨师排队品尝
想象你走进一家面包工坊,师傅说只用一团面团就能一次烤出松软的餐包、甜甜圈和咸味贝果(贝果的英文名跟模型BAGEL相同)。
多年来,视觉-语言模型负责“餐包”,文生图模型负责“甜甜圈”,两类师傅各做各的,口味难调和。而BAGEL是在同一个烤箱里同时放进文字、图像、视频甚至网页内容,调和成统一的“面团”,再通过两位专职“烘焙师”——理解专家和生成专家,让面包在不同温度区间各得其宜。
对于普通用户来说,未来一句话就能让手机相册里的照片批量换景,又能让它写诗作画,甚至规划机器人在真实空间里行动;
对于研究者来说:开源社区首度拥有了一款在理解、生成、推理全部领跑的多模态基础模型。
选料与故事:背景里的面粉
BAGEL的故事得从多模态研究的“面粉荒”说起。学术界此前的统一模型大都只吃“图-文对”这单一主粮,始终追不上GPT-4o、Gemini 2.0等商业大厨的秘制配方。
论文指出,多模态研究的根本问题在于缺少结构化交织的数据:只有当文字、静图、视频乃至网页元素像麦香、蔗糖和酵母那样充分交融,模型才能涌现出复杂的组合推理能力。
研究团队因此制定了一套全新的“面粉筛选”协议,通过视频拆帧描述、网页图文重写等方式,将原本松散的多媒体信息压成可以直接投入烤箱的均匀棉团,从而为大型统一模型提供坚实的碳水底座。
和面:BAGEL 的模型配方
把注意力集中到操作台:BAGEL 内核是一台7B激活参数(14B总参数)的Mixture-of-Transformers(MoT)烤箱。它并非简单把多模态信号塞进单一路径,而是拆分出两位烘焙师:理解专家专注于ViT视觉编码器与文本打交道;生成专家则握有VAE 拉伸出的潜空间,负责扩散式图像合成。两位师傅共用同一套自注意力“烤腔”,却各自调控火候,保证互不抢味。
视觉输入以双线并进:对理解而言,SigLIP2-so 400 m/14负责把像素磨成细腻麦粉;对生成而言,FLUX VAE将图片压至八分之一尺寸的潜域,再切割成小方块,像给面团预留气孔。
文字与视觉token在统一的滚轴上交错排布,借助“广义因果注意”机制,先后的面团片可以随意翻转又不串味。正是这种无瓶颈的共享烘焙腔,让模型能在长上下文里同时思考“面粉成分”与“烘烤花纹”。
发酵:跨模态海量数据如何激活潜能
面团发酵离不开温度、时间与水汽。研究团队把预训练分成四个温区:
首先是Alignment对齐,让视觉编码和语言模型在固定378像素的“小烤箱”里互闻香气;
随后是Pre-training主发酵,向面团注入2.5万亿token的混合原料,其中六成为图生文、四成为文生图,加上视频切片与网页教程,生成与理解以约四比一的比例交替按压,让面筋充分舒展;
接着Continued Training提高解析度至1024,并拉升视频与网页比例,像延长二次发酵时间,让酵母深度入味;
最后是SFT精调,以727亿高品质token点睛,抹上香草籽与芝麻。实验表明,生成样本占比若低于一半,面包难以外层金黄;超参数稍有不慎就会“塌腰”,因此团队为交叉熵和均方误差分别设权重,像同时盯着面温和芯温。
火候:训练技巧的细火慢炖
当烤箱温度在140亿步左右爬升到“高温区”,模型开始显露酥皮。论文详细记录了学习率迭代与数据配比的摸索:学习率调高虽然让生成误差迅速下降,却可能使理解抖动,于是作者选择给两种损失分别戴上“沙袋”,再用β1 = 0.9、β2 = 0.95 的AdamW保持面团延展性。
值得注意的还有“扩散时间步移位”,当分辨率增加时,相当于在烤箱里多喷几次蒸汽,避免表皮过早干裂。这些看似枯燥的工程举措共同保证了面包内部孔洞均匀,外壳金黄酥脆。
出炉:评测成绩与涌现能力
面包一旦出炉便要趁热品尝。BAGEL在六大视觉理解基准(MME、MMBench、MMMU 等)中拿下业内开源第一的平均分;在GenEval文生图测试里,以不借助提示词改写就取得0.82,总分0.88超越FLUX-1-dev与SD-3 medium;在实际图像编辑GEdit-Benc与IntelligentBench上,以7.36和44.9分刷新开源记录,如果开启自我链式推理,还能冲到55.3,逼近GPT-4o的78.9。
最重要的是“涌现曲线”。作者把训练过程中不同步点的模型放到同一批蛋糕模里测试,发现理解与高保真生成大约在见到1800亿token后就趋于饱和,而复杂编辑与跨模态推理则要等到3.61万亿token后才出现质变,宛如面团在最后阶段突然发起大泡,形成标志性的“贝果孔”。
回味: 烤箱门合拢的余温
对普通用户,BAGEL意味着手机应用可以一秒领会你关于“把这张照片里的冬夜改成樱花春景”的描述并立即呈现效果;
对内容创作者,它提供了无需多次切换工具的统一创作流水线;
对产业界,它暗示下一代机器人可在同一模型中完成“看清场景、规划路径、生成语言解释与视觉反馈”的全流程。
更重要的是可自由商用,意味着更多开发者可以在此基础上开发针对医学影像、工业巡检乃至虚拟世界构建的定制面团,AI 生态因此获得真正的“开放发酵”。
至顶AI实验室洞见
BAGEL展示了一个朴素的道理:当我们放下对“理解模型”与“生成模型”壁垒的执念,像一位面包师把看似不相干的原料和在一起慢慢揉捏,时间与温度便会酝酿出超越预期的层次与香气。
字节在AI基础研究终于迈出了坚实的一步,而不是只盯着它之前最擅长的产品、增长故步自封。
Google也有类似的经历。
很长时间,在OpenAI的ChatGPT和Anthropic的Claude模型面前,Google的Gemini就像一个没有还手之力的小学生。但是2024年10月开始,Google将包括Gemini团队和AI Studio在内的多个部门划归DeepMind,由Hassabis全权负责,Google的AI产品性能仿佛又开始好起来了。
所以我们应该相信字节有反超的机会,而且字节即梦的实力已经被很多人看见了。
这一步,字节的策略可能是,大语言模型打不过你们,我也不硬加入,果断转战多模态模型。
原因也不难理解,训练多模态模型需要海量图片、视频。视频数据是别家缺少,但对于拥有抖音、Youtube的字节、Google来说是最不缺的。
你可以不相信字节的大语言模型,但一定不要低估字节的多模态模型。
项目网页:https://bagel-ai.org/
论文地址:https://arxiv.org/abs/2505.14683