单卡2秒生成一个视频!清华联手生数开源TurboDiffusion,视频DeepSeek时刻来了
创始人
2025-12-25 20:45:28

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

现在生成一个视频,比你刷视频还要快。

因为一个开源新框架,竟能让视频生成在保证质量的情况下,最高提速200多倍!

而且还是单张显卡就能hold住的那种,来感受一下这个feel:

没错,原先1.3B-480P在单张RTX 5090生成一个5秒的视频,需要的时间大概是184秒。

而现在,只需要1.9秒,速度足足提升97倍!

这背后,便是清华大学TSAIL实验室和生数科技联合开源的视频生成加速新框架——TurboDiffusion

新框架一出,网友们也是不淡定了,直呼:

我们已经进入到了生成的视频比看的视频还多的时代。

包括Meta研究员和伯克利教授也站台打call:

2秒就能生成一个视频

过去,视频生成虽然惊艳,但慢,一直是个老大难的痛点问题。

想生成一段几秒的高质量视频,模型往往需要在大显存高端显卡上吭哧吭哧跑上几分钟到几十分钟。这种延迟,极大限制了创作者的灵感爆发和实时交互的可能性。

TurboDiffusion的出现,就是为了解决这个问题。

咱们直接看一组数据。

在单张RTX 5090上,针对1.3B大小的文生视频模型:

  • 原始生成:生成一段480P视频需要约184秒(超过3分钟)。

  • TurboDiffusion:仅需1.9秒。

算下来,相对于原始模型,TurboDiffusion实现了约97倍的加速!

若是模型再大一些,例如14B的图生视频模型,清晰度为720P,效果也是立竿见影,仅需38秒就能搞定:

同样是720P的文生视频模型,所需要的时间也仅仅24秒:

图生视频中14B的480P则需9.9秒:

更重要的是,这种提速是几乎无损的。

在生数科技自研的Vidu模型上,使用了TurboDiffusion之后,视频的动态流畅度、光影质感以及指令遵循能力依然保持了极高水准。

在生成1080P分辨率、8秒时长的高质量视频时,相比没有任何推理加速优化的视频生成,TurboDiffusion可以将端到端的生成延迟从900s提速到8s

不同大小和清晰度,TurboDiffusion加速的效果可以总结如下:

并且TurboDiffusion操作起来也是非常简单,它针对目前主流的视频生成模型提供了开箱即用的优化方案。

在GitHub中,TurboDiffusion项目也给出了具体的操作细节和方式:

那么问题来了,这种速度到底是如何做到的?

四个步骤极限压缩时间

视频生成模型(通常是Diffusion Transformer架构)之所以慢,主要卡在步数多(采样循环)、算力重(Attention计算)、显存窄(权重搬运)。

为此,TurboDiffusion团队整合了四项关键技术,每一项都精准打击扩散模型推理的性能瓶颈。

首先就是SageAttention

注意力机制可以说是扩散模型中最耗时的部分之一,传统实现使用 FP16(半精度浮点),计算量大、显存占用高。

TurboDiffusion引入了团队自研的SageAttention2++,一种低比特量化注意力方案。

它将权重和激活值压缩到INT8甚至INT4,同时通过异常值平滑和线程级量化技术,避免精度崩塌。

从结果上来看,注意力计算速度提升3–5倍,显存占用减半,而图像质量几乎不变。

其次是Sparse-Linear Attention(SLA)

如果说 SageAttention 是在单次计算上提速,那么SLA就是从算法逻辑上减负。

SLA结合了稀疏性(只关注重要的像素点)和线性复杂度(让计算量不随分辨率爆炸增长)。

最绝的一点是:稀疏计算与低比特加速是正交的。这意味着 SLA 可以直接叠在 SageAttention 之上使用,强强联手,在推理过程中又榨出了数倍的额外加速空间。

第三招是rCM步数蒸馏

传统的扩散模型需要经过几十甚至上百步的迭代才能去噪生成图像。

TurboDiffusion引入了rCM(Score-regularized Continuous-time Consistency Models) 进行步数蒸馏。

rCM是目前最先进的蒸馏方案之一。通过它,原本需要几十步才能生成的视频,现在只需要1-4步就能达到几乎相同的质量。

最后便是W8A8 量化+自定义算子

除了注意力,模型中的线性层(Linear Layer)也占大量计算。TurboDiffusion对其采用W8A8量化(权重8位,激活8位),并在128×128的块粒度上分块处理,充分利用RTX 5090的INT8 Tensor Core。

此外,团队还用Triton/CUDA重写了LayerNorm、RMSNorm等基础算子,消除PyTorch默认实现的overhead。

这四项技术环环相扣:蒸馏减步数,量化减负载,SLA和SageAttention减算力。最终汇聚成了那惊人的200倍加速。

这4项核心技术均由清华大学TSAIL团队联合生数科技自主研发,它的意义远不止于技术指标的跃升,更在于它打通了视频生成模型从研究到落地的最后一公里:

  • 消费级部署成为可能:在单张RTX 5090上,720P视频生成时间从几百秒降至几十秒,真正实现秒级出片,为个人创作者、中小企业提供可用工具。

  • 云端推理成本骤降:推理时延降低100倍,意味着同等算力可服务100倍用户,大幅降低云厂商与SaaS平台的运营成本。

  • 推动 AIGC 产品创新:实时视频编辑、交互式视频生成、AI 短剧自动制作等新场景成为可能,催生全新产品形态。

  • 国产芯片友好:低比特、稀疏化、算子定制等特性天然适配国产AI芯片架构,助力中国AI基础设施自主可控。

其中,SageAttention更是全球首个实现注意力计算量化加速的技术方案,已被工业界大规模部署应用。

例如,SageAttention已成功集成至NVIDIA推理引擎Tensor RT,同时完成在华为昇腾、摩尔线程S6000等主流GPU平台的部署与落地。

此外,腾讯混元、字节豆包、阿里Tora、生数Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM 等国内外头部科技企业及团队,均已在核心产品中应用该技术,凭借其卓越性能创造了可观的经济效益。

视频生成,离实时更近了

从1小时到2秒,TurboDiffusion完成的不仅是一次技术突破,更是一次范式转移。

它证明了高质量 AI 视频,不必以牺牲效率为代价。当生成速度进入人类反应时间范围(<5秒),AI 就不再是后期工具,而成为创作伙伴——你说话,它就动;你画草图,它就演故事。

这或许就是实时生成时代的真正含义:创作的延迟被抹平,想象力成为唯一的限制。

而现在,我们离那个时代,只有2秒。

项目地址放下面了,感兴趣的小伙伴抓紧体验一下吧~

TurboDiffusion项目地址:

https://github.com/thu-ml/TurboDiffusion?tab=readme-ov-file

论文地址:

https://arxiv.org/pdf/2512.16093

相关内容

热门资讯

钧崴电子:AI服务器增长带来产... 证券之星消息,钧崴电子(301458)12月24日在投资者关系平台上答复投资者关心的问题。 投资者提...
单卡2秒生成一个视频!清华联手... 金磊 发自 凹非寺 量子位 | 公众号 QbitAI 现在生成一个视频,比你刷视频还要快。 因为一个...
蒙牛奶牛工人:AI表格根本不需... 文 | 阑夕 前天,钉钉开了AI钉钉1.1的新品发布会,在一系列的发布和更新里,不出意外的,关于AI...
产学研共舞 中国人寿举办首届A... 【大河财立方 记者 王楠】日前,中国人寿保险股份有限公司(以下简称“中国人寿”,股票代码:60162...
AI能力全面开放 钉钉要让更多... 近日,AI钉钉1.1新品发布暨生态大会在杭州举办,钉钉正式发布全球首个为AI打造的工作智能操作系统—...