Adobe团队AWM算法:AI图像训练提速24倍
创始人
2025-10-27 23:13:41
0

这项由加州大学、Adobe研究院、香港大学麻省理工学院联合完成的研究发表于2025年9月的ArXiv预印本平台,论文编号为arXiv:2509.25050v1。研究团队由薛述晨、葛崇健、张世龙、李一晨和马志明等多位学者组成,其中薛述晨、葛崇健、张世龙和李一晨四人均在Adobe研究院实习期间参与了这项工作。

当前AI图像生成技术正在快速发展,但训练这些模型需要消耗大量的计算资源和时间。就像烘焙一个复杂的多层蛋糕需要精确控制每个步骤的温度和时间一样,训练AI图像生成模型也需要在预训练和强化学习微调之间找到完美的平衡。然而,目前主流的强化学习方法存在一个关键问题:它们与预训练阶段使用的方法不一致,就像用不同的烘焙温度处理蛋糕的不同层次一样,这种不一致导致了训练效率的显著下降。

研究团队首次发现,当前最流行的扩散模型强化学习方法DDPO(去噪扩散策略优化)实际上在暗中执行一种"带噪声的分数匹配"过程。这就像是在制作蛋糕时,原本应该用纯净的面粉,却不得不使用掺杂了杂质的面粉,虽然最终还是能做出蛋糕,但过程会变得更加困难,需要更多的时间和精力。这种噪声的引入增加了训练过程中的方差,使得模型收敛变慢,训练效率大幅降低。

基于这一发现,研究团队提出了一种名为"优势加权匹配"(Advantage Weighted Matching,简称AWM)的全新算法。AWM的核心思想是让强化学习微调阶段使用与预训练完全相同的目标函数,只是根据样本的优势(即好坏程度)来调整权重。这就像是恢复使用纯净面粉制作蛋糕,同时根据每层蛋糕的重要性来调整用料比例一样。好的样本会获得更高的权重,差的样本权重较低,但整个制作工艺保持一致。

实验结果令人震撼。在GenEval、OCR和PickScore等多个标准测试中,AWM在Stable Diffusion 3.5 Medium和FLUX等主流模型上的表现相比之前的方法实现了惊人的加速。最引人注目的是,AWM在保持生成质量完全不变的情况下,训练速度提升了8到24倍。这意味着原本需要几天才能完成的训练工作,现在可能只需要几个小时就能完成。

这项研究的意义远超技术层面的改进。对于AI图像生成行业而言,训练成本的大幅降低意味着更多的研究团队和公司能够参与到这个领域中来,而不再是只有资源充足的大型科技公司才能承担得起的"奢侈品"。同时,更快的训练速度也意味着研究人员可以更频繁地进行实验和迭代,加速整个领域的发展进程。

一、揭开DDPO的神秘面纱:发现隐藏的噪声问题

为了理解这项研究的革命性意义,我们需要先了解目前AI图像生成模型的训练过程是如何工作的。目前最主流的方法叫做扩散模型,可以把它想象成一个逐步"去噪"的过程,就像是从一团模糊的色彩中慢慢勾勒出清晰图像的艺术创作过程。

在传统的大语言模型训练中,预训练和强化学习后训练使用的是同一套"语言规则",就像是同一套语法体系。但在图像生成领域,情况却截然不同。预训练阶段使用的是"分数匹配"或"流匹配"方法,这就像是学习如何从噪声中恢复清晰图像的技巧。而强化学习阶段却使用了完全不同的DDPO方法,这就像是突然改用另一套完全不同的绘画技法。

研究团队通过深入的理论分析发现了一个令人惊讶的事实:DDPO实际上也在进行分数匹配,但它使用的是"带噪声的数据"进行匹配。这就像是在学习绘画时,本来应该对着清晰的模特画像进行练习,但DDPO却是对着一张模糊不清、带有干扰线条的照片进行学习。虽然最终都能学会绘画,但后者显然需要更多的时间和练习才能达到同样的水平。

这个发现解释了为什么DDPO方法的训练过程如此缓慢。噪声的存在增加了训练目标的方差,就像是在瞄准靶心时,如果靶子在不断摇摆,即使是神射手也需要更多次尝试才能命中目标。研究团队通过严格的数学证明,量化了这种噪声带来的额外方差,并在CIFAR-10和ImageNet-64等标准数据集上进行了验证实验。结果确实证实,使用带噪声数据的方法在相同条件下收敛速度明显较慢。

更重要的是,这种不一致性还带来了另一个问题:训练过程与采样过程的脱节。DDPO方法绑定了特定的采样方式(欧拉-丸山离散化),就像是只能用特定品牌的画笔作画一样,限制了模型的灵活性。而实际应用中,我们往往希望能够使用各种不同的采样方法来获得最佳的质量-速度平衡。

二、AWM算法的优雅解决方案:重新统一训练目标

基于对DDPO问题的深入理解,研究团队提出了AWM算法,这是一个既简单又优雅的解决方案。AWM的核心思想可以用一个简单的类比来理解:如果说DDPO是在摇摆的靶子上练习射击,那么AWM就是回到稳定的靶子上,但会根据射中靶心的重要性来调整奖励分数。

AWM算法的工作原理是这样的:它使用与预训练阶段完全相同的分数匹配或流匹配损失函数,就像是使用同一套绘画技法。但关键的创新在于,它会根据每个生成样本的"优势"来调整这个损失函数的权重。优势可以理解为样本的好坏程度,好的样本(比如生成了用户喜欢的图像)会获得正的优势值,差的样本则获得负的优势值。

具体来说,当一个样本的优势为正时,算法会增强对这个样本对应的分数匹配目标的学习,就像是告诉画家"这种画法很好,要多练习"。相反,当样本的优势为负时,算法会减弱甚至逆转学习方向,相当于告诉画家"这种画法不好,要避免"。这种机制确保模型能够从好的样本中学到更多,同时避免从差的样本中学到错误的经验。

AWM的另一个重要优势是它完全解耦了训练和采样过程。由于它使用的是前向过程的分数匹配目标,而不依赖于特定的逆向采样步骤,因此可以支持任何类型的ODE或SDE采样器。这就像是学会了绘画的基本功后,可以用任何品牌的画笔或画纸进行创作,而不受工具限制。

算法的实现过程也相当直观。对于每个训练批次,系统首先从当前模型中采样一组图像,然后使用奖励函数评估这些图像的质量,计算出相对于批次平均水平的优势值。接下来,系统为每个样本添加高斯噪声(就像在清晰图像上人为添加一些模糊效果),然后使用标准的分数匹配损失,但会用优势值对损失进行加权。最后,通过梯度下降优化模型参数。

这种设计的优美之处在于它的概念统一性。现在,扩散模型的预训练和强化学习后训练终于使用了相同的基础目标函数,只是在权重分配上有所不同。这就像是语言模型领域早已实现的统一性:预训练时所有token权重相等,而强化学习时根据好坏调整权重,但核心的语言建模目标保持不变。

三、实验验证:惊人的加速效果

为了验证AWM算法的实际效果,研究团队在多个主流的图像生成模型和评估基准上进行了全面的实验。他们选择了Stable Diffusion 3.5 Medium(SD3.5M)和FLUX这两个代表性的开源模型,并在三个重要的评估任务上测试性能:GenEval(用于评估图像生成的组合能力)、OCR(用于评估文本渲染质量)和PickScore(用于评估人类偏好对齐)。

实验结果令人震撼。在GenEval任务上,AWM在SD3.5M模型上达到了与Flow-GRPO相同的0.95分数,但训练时间仅为后者的八分之一,实现了8.02倍的加速。这意味着原本需要几天才能完成的训练任务,现在可能在几个小时内就能完成。更令人印象深刻的是,在OCR任务上,AWM实现了23.6倍的惊人加速,而在PickScore任务上也有10.5倍的提升。

在FLUX模型上的表现同样出色。OCR任务上实现了8.5倍加速,PickScore任务上有6.8倍提升,OCR准确率更是达到了0.986的高水平。这些数据清楚地表明,AWM不仅在保持生成质量的同时大幅提升了训练效率,而且这种效果在不同的模型架构上都表现出了良好的一致性。

为了确保实验结果的可靠性,研究团队还进行了详细的消融实验。他们测试了不同时间步采样分布的影响,发现离散分布和均匀分布表现相似,而对数正态分布表现较差。在KL正则化强度的选择上,他们发现过小的值(如0.2)可能导致训练不稳定,过大的值(如2.0)则会减慢学习速度,中等范围(0.4-1.0)表现最佳。

研究团队还比较了纯在线策略更新与混合(一步离线策略)更新的效果,结果显示两者性能相近,这为未来扩展到更深层次的离线策略重用奠定了基础。这些细致的消融实验不仅验证了AWM的稳健性,也为实际应用提供了重要的参数选择指导。

值得注意的是,这些加速并非以牺牲生成质量为代价。在各项评估指标上,AWM都能达到甚至超越现有方法的性能水平。例如,在GenEval的各个子任务中,AWM在单对象(1.00)、双对象(0.99)、计数(0.95)、颜色(0.93)、位置(0.98)和属性(0.83)等方面都表现出色,综合得分达到0.95,与Flow-GRPO持平。

四、算法细节与技术创新点

AWM算法的成功不仅体现在优异的实验结果上,更重要的是其在理论基础和技术实现上的多项创新。首先,算法彻底解决了策略梯度方差的问题。传统的策略梯度方法在使用基线减少方差时,仍然受到似然估计本身方差的影响。对于扩散模型而言,精确的似然计算在计算上是不可行的,因此必须依赖近似方法。AWM通过使用与预训练相同的分数匹配目标,避免了这种额外的方差来源。

在训练与采样的解耦方面,AWM实现了真正的灵活性。传统的DDPO方法绑定了特定的欧拉-丸山离散化采样方式,这就像是只能用特定的烹饪方法制作食物。而AWM基于前向过程的设计,可以支持任何类型的ODE或SDE采样器,甚至可以在训练时使用20步采样,而在实际应用时使用4步采样,大大提升了实用性。

算法的另一个重要特点是与预训练的完美对齐。在语言模型领域,预训练和强化学习后训练都基于相同的对数似然目标,只是权重不同。AWM首次在扩散模型领域实现了这种概念统一性。预训练时使用标准的分数匹配损失,强化学习时使用相同的损失但加上优势权重,这种设计的优雅性不仅在理论上令人满意,在实践中也带来了显著的性能提升。

在实现细节上,AWM采用了多项技术来确保训练的稳定性和效率。例如,它使用了来自LLaDA 1.5的共享时间步和噪声技术来减少方差,在计算似然比时使用相同的随机数种子,确保比较的公平性。此外,算法还引入了速度空间的KL正则化项,防止模型偏离参考模型过远,类似于在探索新领域时保持与已知安全区域的联系。

AWM的训练流程设计也体现了实用性考虑。算法使用LoRA(低秩适应)技术进行参数高效的微调,在SD3.5M上使用α=64和r=32的配置,在FLUX上使用α=128和r=64的配置。这种设计既保证了训练效率,又确保了模型的泛化能力。学习率设置为恒定的3e-4,KL系数β根据不同任务进行调整(GenEval和OCR为0.4,PickScore为0.01),体现了算法的适应性。

五、理论突破:DDPO与分数匹配的等价性证明

这项研究最重要的理论贡献之一是证明了DDPO与带噪声数据的去噪分数匹配(DSM)之间的等价性。这个发现就像是解开了一个困扰研究者许久的谜题:为什么同样是训练扩散模型,DDPO的效率却比预训练方法低那么多?

研究团队通过严格的数学推导证明,当忽略欧拉-丸山离散化误差时,最大化DDPO的逐步高斯似然等价于最小化在相同时间步上使用噪声数据的去噪分数匹配损失。这个等价性对于任何参数化方式(分数或速度)都成立,这意味着无论采用何种具体的数学表达方式,本质上的问题都是一样的。

更进一步,研究团队证明了虽然使用噪声数据的DSM在期望意义上与使用清洁数据的DSM等价(即它们有相同的最优解),但在噪声条件下的DSM目标具有更高的方差。具体来说,对于维度为d的数据,使用噪声数据会增加d·κ(s,t)的额外方差,其中κ(s,t)是一个随噪声水平s严格递增的函数。

这个方差分析揭示了DDPO效率低下的根本原因。在机器学习中,目标函数的方差直接影响优化的收敛速度,高方差意味着需要更多的样本和更长的训练时间才能达到相同的精度。研究团队通过在CIFAR-10和ImageNet-64数据集上的对比实验验证了这一理论预测:在完全相同的实验设置下,使用噪声数据的方法确实比使用清洁数据的方法收敛更慢。

这种理论理解不仅解释了现有方法的局限性,更重要的是为AWM算法的设计提供了坚实的理论基础。既然问题的根源在于噪声引入的额外方差,那么解决方案就是回到使用清洁数据的分数匹配,同时通过优势加权来引入强化学习的反馈机制。

研究团队还证明了一个重要的单调性结果:对于固定的时间t,方差增量κ(s,t)关于噪声时间s严格单调递增,且当s接近t时趋向无穷大。这意味着使用越接近目标时间步的噪声数据,带来的方差惩罚越大。这个结果进一步支持了AWM使用清洁数据(对应s=0)的设计选择。

六、与现有方法的深入对比

为了全面理解AWM的创新价值,我们需要将其与现有的各种强化学习方法进行详细对比。当前的扩散模型强化学习方法主要分为三大类:奖励反馈学习、去噪扩散策略优化和奖励加权回归。

奖励反馈学习方法,如ImageReward提出的ReFL和DRaFT等,直接通过梯度反向传播最大化最终生成图像的奖励。这种方法就像是直接调整画家的手部动作来改善画作质量。虽然理论上很直观,但实践中面临诸多挑战:奖励函数必须可微,这排除了许多基于规则或二元的奖励(如GenEval或OCR检测);现代生成模型在高度压缩的VAE潜在空间中操作,从像素级奖励回传梯度需要额外的内存和计算开销;一阶优化虽然通常比零阶优化效率更高,但面临更高的奖励攻击风险。

DDPO及其变体,包括Flow-GRPO和Dance-GRPO等,将强化学习问题框架为多步决策问题。它们将去噪过程的每个逆向时间步视为一个动作,使用欧拉-丸山离散化下的高斯转移概率作为策略。这种方法的优势在于能够处理不可微的奖励函数,避免了奖励攻击的风险。但正如本研究揭示的,这种方法实际上在进行带噪声的分数匹配,导致了不必要的方差增加和收敛减慢。

奖励加权回归方法,如Lee等人提出的离线版本和Fan等人的在线版本,通过最大化离线的奖励加权去噪损失来微调模型。这类方法在概念上与AWM最为接近,但缺乏与DDPO的理论联系,也没有在文本到图像的扩散任务上展示效果。

相比之下,AWM的独特优势在于它结合了各种方法的优点而避免了它们的缺点。与奖励反馈学习相比,AWM支持任意的奖励函数,无需可微性要求,也避免了通过VAE解码器反向传播的计算开销。与DDPO相比,AWM使用相同的分数匹配目标减少了方差,实现了更快的收敛,同时解耦了训练和采样过程,支持任意的采样器。与现有的奖励加权回归相比,AWM建立了清晰的理论联系,解释了为什么这种方法优于DDPO,并在多个主流模型和任务上展示了显著的性能提升。

AWM还在实现细节上体现了诸多优势。它避免了CFG(无分类器引导)在训练中的使用,这与预训练保持一致;支持灵活的时间步选择,训练和采样可以使用不同的步数设置;通过策略梯度理论提供了坚实的理论基础,确保了方法的正确性和稳定性。

七、广泛的实验验证与性能分析

研究团队在实验设计上展现了极其严谨的态度,不仅测试了算法在不同模型上的表现,还深入分析了各种超参数和设计选择的影响。在GenEval基准测试中,AWM在所有子任务上都表现出色:单对象检测达到完美的1.00分,双对象检测0.99分,计数任务0.95分,颜色识别0.93分,位置理解0.98分,属性识别0.83分,综合得分0.95分。这些结果表明AWM不仅在整体性能上与最佳方法持平,在具体的视觉理解任务上也展现了均衡的能力。

在OCR任务上的表现更加令人印象深刻。SD3.5M模型使用AWM训练后,OCR准确率从基础模型的0.59提升到0.89,而训练时间仅需17.6个GPU小时,相比Flow-GRPO的415.9小时实现了23.59倍的加速。在FLUX模型上,OCR准确率从0.59提升到0.95,训练时间40.3小时,相比Flow-GRPO的343.6小时实现了8.53倍加速。当给予更长的训练时间时,FLUX上的OCR准确率甚至可以达到0.99,提升幅度达到4.21%。

PickScore任务的结果同样令人鼓舞。SD3.5M模型的PickScore从基础的21.72提升到23.02,训练时间91.1小时,相比Flow-GRPO的956.1小时实现了10.49倍加速。FLUX模型的PickScore从22.20提升到23.08,训练时间49.8小时,相比339.2小时实现了6.82倍加速。这些数据清楚地表明,AWM不仅在客观指标上表现优异,在人类偏好对齐方面也有显著提升。

研究团队还进行了详细的消融研究来验证算法设计的合理性。在时间步采样分布的选择上,他们比较了三种策略:离散分布(在推理采样器的时间网格上均匀离散化)、均匀分布和对数正态分布。结果显示离散和均匀分布性能相似,而对数正态分布表现较差并在强化学习微调过程中出现退化。这个发现为实际应用提供了重要的参数选择指导。

在KL正则化强度的研究中,团队测试了β∈{0.2, 0.4, 1.0, 2.0}的范围。结果表明过小的正则化(β=0.2)可能导致训练不稳定和性能崩溃,过大的正则化(β=2.0)则会减慢学习速度并影响最终性能。中等范围(β∈[0.4, 1.0])表现最佳,既保证了训练稳定性又实现了快速收敛。

在策略更新策略的对比中,纯在线策略更新与混合策略(50%来自当前策略,50%来自前一步策略)表现非常相似,这为未来扩展到更深层次的离线策略重用奠定了基础。这种灵活性在实际应用中非常有价值,因为它允许更高效地利用计算资源和历史数据。

八、实际应用价值与未来影响

AWM算法的成功不仅仅是学术研究上的突破,更重要的是它为整个AI图像生成行业带来了实质性的变革机会。训练成本的大幅降低意味着资源门槛的显著下降,这将使更多的研究团队、初创公司甚至个人开发者能够参与到高质量图像生成模型的开发中来。

从商业角度看,训练时间的24倍减少直接转化为成本的大幅节约。原本需要数万美元计算资源的训练项目,现在可能只需要数千美元就能完成。这种成本效率的提升将加速AI图像生成技术的商业化进程,使得更多的应用场景变得经济可行。对于内容创作、广告设计、游戏开发、影视制作等行业而言,这意味着能够更频繁地进行模型定制和优化,以满足特定的业务需求。

从技术发展的角度,AWM的成功可能催生更多基于统一目标函数的研究方向。预训练和强化学习后训练的概念统一,不仅提升了训练效率,也为理解和改进生成模型提供了新的视角。研究者现在可以更好地理解不同训练阶段之间的关系,设计更加连贯和高效的训练策略。

AWM算法还展现了良好的扩展性潜力。由于它将训练与采样过程完全解耦,未来可以结合更先进的采样技术,如高阶ODE求解器或优化的SDE采样器,进一步提升生成质量和速度的平衡。此外,算法对任意奖励函数的支持为多目标优化开启了新的可能性,可以同时优化图像质量、文本对齐、风格一致性等多个方面。

该研究还可能对其他生成模型产生影响。虽然AWM专门针对扩散模型设计,但其核心思想——在强化学习中保持与预训练相同的目标函数——可能适用于其他类型的生成模型。这种统一性原则可能成为未来生成模型研究的重要指导思想。

从教育和研究的角度,AWM的理论清晰性和实现简洁性使其成为一个优秀的教学案例。它不仅展示了理论分析如何指导算法设计,也证明了有时最好的解决方案往往是最简单的。这对于培养下一代研究者具有重要的启发意义。

开源社区的推动下,AWM算法的影响力将进一步放大。研究团队已经在GitHub上公开了完整的代码实现,这将加速算法的采用和进一步改进。开源的特性也意味着更多的研究者可以在AWM的基础上进行创新,推动整个领域的快速发展。

说到底,AWM算法的成功体现了科学研究中理论与实践完美结合的力量。通过深入理解现有方法的局限性,研究团队不仅找到了问题的根源,还提出了一个既优雅又实用的解决方案。这种从第一性原理出发的研究方法,正是推动技术进步的关键所在。对于AI图像生成领域而言,AWM可能标志着一个新时代的开始,一个训练更高效、成本更低廉、创新更活跃的时代。

随着计算资源的持续优化和算法效率的不断提升,我们有理由相信,高质量的AI图像生成将很快从实验室走向千家万户,真正实现普及化应用。而AWM算法在这个历史进程中,无疑将扮演重要的推动者角色。未来几年,我们很可能会看到基于AWM或其改进版本的商业产品大量涌现,为内容创作者和普通用户带来前所未有的创作体验。

Q&A

Q1:AWM算法相比DDPO方法主要解决了什么问题?

A:AWM主要解决了DDPO方法中隐含的"噪声问题"。研究发现DDPO实际上在进行带噪声数据的分数匹配,这增加了训练过程的方差,导致收敛变慢。AWM回到使用清洁数据的分数匹配,同时用优势权重引入强化学习反馈,既保持了预训练的效率又实现了强化学习的目标。

Q2:AWM算法能够实现多大程度的训练加速?

A:根据实验结果,AWM在不同模型和任务上实现了8到24倍的训练加速。具体来说,在SD3.5M模型上,GenEval任务加速8.02倍,OCR任务加速23.59倍,PickScore任务加速10.49倍。在FLUX模型上,OCR任务加速8.53倍,PickScore任务加速6.82倍,而且这些加速都是在保持生成质量不变的前提下实现的。

Q3:AWM算法适用于哪些AI图像生成模型?

A:AWM算法专门设计用于扩散模型和流匹配模型,已经在Stable Diffusion 3.5 Medium和FLUX等主流开源模型上验证了效果。由于算法基于通用的分数匹配框架,理论上可以应用于任何使用分数匹配或流匹配进行预训练的生成模型,具有良好的通用性和扩展性。

上一篇:AI助力长寿研究取得新进展

下一篇:没有了

相关内容

热门资讯

Adobe团队AWM算法:AI... 这项由加州大学、Adobe研究院、香港大学和麻省理工学院联合完成的研究发表于2025年9月的ArXi...
AI助力长寿研究取得新进展 随着我们不断意识到人工智能和大语言模型的潜力,科学家们正将目标瞄准长寿研究。 人类一直渴望延长寿命,...
这套AI+设计,正在全国复制,... 大模型赋能时尚设计 精准适配全球审美 作者/ IT时报 毛宇 编辑/ 潘少颖 孙妍 2025年9月,...
《开源量化之声·2025》年度... 来源:市场投研资讯 (来源:建榕量化研究) 参会方式:
原创 近... 最近网上有个消息比较火,说是9月份《兵工科技》爆料了南海电子战的一则关键案例,解放军用一辆用来侦察和...
京报读书·智汇|《奇奇怪怪动物... 100种荒诞不经的有趣动物 该书介绍了100种行为最为荒诞不经的有趣动物。从动物的求偶、社交、育儿...
培育“懂临床、懂AI”的复合型... 10月27日,重庆医科大学举行70周年校庆倒计时一周年暨捐赠答谢仪式。上游新闻记者从仪式上获悉,截至...
AI也让假象变得更真了|SEA... 科技无界,但也有着自己的独特进程。这里,动点出海将和大家一起回顾上周(2025.10.20-2025...
何赛飞怒斥张柏芝后道歉:我这个... 搜狐娱乐讯 近日在某综艺中,张柏芝担任团队领队,首日因协调行李、车辆问题导致全员出发延误45分钟。而...
*ST金科成立科技公司,含AI... 企查查APP显示,近日,重庆璞特科技有限公司成立,注册资本1000万元,经营范围包含:人工智能基础软...