AI编剧上线!给机器看段视频,它反手给你一份剧本
创始人
2026-02-17 15:49:56

为什么电影剧本能让人在脑海中完整地“看见”一部电影?一个优秀的剧本不仅要描写角色在做什么,还要让阅读的人知道镜头怎么运动、背景音乐是什么、演员的语气如何。

现在,来自北京大学、快手科技、华南理工大学、电子科技大学、香港大学和中国科学院自动化研究所的研究团队,正在教人工智能做同样的事情——把一段视频“翻译”成一份详尽的剧本式描述。

从“看视频”到“写剧本”:这项研究要解决什么问题?

回想一下你最后一次向朋友描述一部电影的场景。你可能会说:“镜头从高处俯拍一辆白色跑车在庄园的车道上转圈,然后切到车内,司机是个中年男人,穿着深色西装,他语气有点急躁地催促副驾驶上的人,说自己必须赶回去,因为爱人60岁生日,他是偷偷把车开出来的……”

这种描述包含了丰富的信息:画面内容、镜头角度、角色动作、对话内容、语气情绪,甚至还有背景音乐。但对于现有的人工智能来说,做到这一点非常困难。目前大多数视频描述系统只能生成笼统的概括,比如“一辆车在行驶”,或者只关注最显眼的事件而忽略大量细节。更关键的是,它们很少标注精确的时间戳——也就是告诉你“从第几秒到第几秒发生了什么”。

研究团队提出了一个全新的任务,他们称之为“全方位密集字幕生成”(Omni Dense Captioning)。“密集”这个词在这里有两层含义:时间上的密集,意味着把视频切分成一个接一个的连续场景,每个场景都有精确的起止时间;描述上的密集,意味着对每个场景从六个不同维度进行全面描写。这六个维度就像剧本的六个必备元素:画面事件描述了角色在做什么、背景环境交代了故事发生的地点和氛围、镜头状态记录了摄像机的角度和运动方式、剪辑风格分析了多个镜头之间如何组接、对话内容转写了角色说的话、声学线索则捕捉语气语调和背景音效。

这种“剧本式”的视频描述有什么用呢?以烹饪教学视频为例。传统的视频字幕可能只写“厨师在做菜”,但剧本式描述会告诉你:“从00:34到00:41,镜头采用俯拍角度,厨师将切好的蔬菜倒入热油锅中,发出滋滋的声响,同时背景播放着轻快的爵士乐,厨师用愉快的语气说‘现在是关键时刻了’……”这样的描述不仅能帮助视障人士“看懂”视频,还能为视频生成系统提供更精确的学习素材,甚至能让搜索引擎根据你的描述找到视频中的精确片段。

像拼图一样的标注流程:人工标注的1122个视频

要教会机器做一件事,首先需要大量正确的示范。研究团队花费一个月时间,通过众包平台招募标注员,为1122个视频进行了完全由人工完成的精细标注,构建了一个名为“OmniDCBench”的基准测试集。

就像组装一幅复杂拼图的过程一样,标注流程被精心设计成三个阶段:第一阶段是筛选和分级,标注员从候选视频库中挑出质量合格的视频,并为每个视频标记难度等级,就像把拼图按难度分类;第二阶段是场景切分,标注员需要完整观看视频,然后把它切分成若干个场景,为每个场景标注精确的开始和结束时间,这就像先在脑海中规划好拼图的大致轮廓;第三阶段是六维描述,由于每个维度需要不同的专业知识——比如"镜头状态"和"剪辑风格"需要懂电影摄影的专业知识——研究团队把不同维度分配给不同的专业标注员。所有标注完成后,还会有独立的审核员进行二次检查。

这套标注集有多详尽?平均每个视频的描述长达995个英文单词,大约相当于两页A4纸的文字量。视频时长大多在50到70秒之间,每个场景平均只有14秒左右。相比之下,当研究团队让谷歌的Gemini-2.5-Pro或阿里的Qwen3-Omni来做同样的任务时,它们生成的场景平均长度分别是10.85秒和4.15秒,前者切得太粗,后者又切得太细,都与人类标注员7.46秒的平均场景长度存在明显差距。

评判标准的难题:当机器和人类对"场景边界"的理解不一致时

假设你和朋友同时看一部电影,然后各自描述其中的一个场景。很可能你认为从第34秒到第41秒是一个完整场景,而朋友认为从第32秒到第42秒才是。这种分歧很正常——毕竟场景是一个语义概念,边界本来就有些模糊。

但这给评估系统带来了巨大挑战。如果模型的时间切分和标准答案稍有偏差,即使描述内容完全准确,传统评估方法也可能给出很低的分数。研究团队为此设计了一套名为“SodaM”的全新评估指标,它的核心思路可以用“先对齐、再合并、后评分”来概括。

第一步是基于时间重叠度的动态规划对齐。这个过程就像在两张时间表之间寻找最佳匹配——用一种算法找出模型输出的场景和标准答案场景之间的最优配对关系,判断依据是两者在时间上的重叠程度(专业术语叫“IoU”,即交并比)。

第二步是多对一合并。如果模型把一个标准场景切成了三个小段,评估系统会聪明地把这三个小段的描述合并起来、时间范围也合并起来,然后再与标准答案进行比较。这样就避免了因为切分粒度不同而造成的误判。

第三步是清单式评分。传统的文本相似度指标(比如BLEU分数)在评估长段落时效果很差,因为它们主要看“用词是否重合”,而不是“意思是否覆盖”。SodaM采用了一种“清单打钩”的方式:先把标准答案拆解成若干个关键信息点,然后检查模型的描述是否覆盖了每个信息点。这就像老师批改作文时,不是看学生用了多少原文词汇,而是看他有没有把所有要点都写到了。

模型架构:让视觉和听觉"手拉手"的交错编码

TimeChat-Captioner模型建立在阿里巴巴的Qwen2.5-Omni基础之上,这是一个能同时处理视频画面和音频的多模态模型。关键在于它如何处理这两种信息。

传统方法通常是“各管各的”——先单独分析视频画面得出视觉特征,再单独分析音频得出声音特征,最后在某个环节把它们拼接起来。但这种做法就像让两个翻译分别翻译同一份双语文件的中文部分和英文部分,然后简单地把两份译文装订在一起,很难保证它们在细节上能对齐。

TimeChat-Captioner采用了时间交错编码的方式。画面和声音被按照时间顺序交错排列成一个序列,就像把一首歌的乐谱和歌词逐小节对齐排列一样。这样,当模型在处理“第35秒的画面”时,紧挨着它的就是“第35秒的声音”,两种信息天然地保持了同步。

此外,模型还使用了一种叫做“多模态旋转位置编码”的技术来精确记录每个信息片段在时间轴上的绝对位置。这对于预测场景边界至关重要——模型需要清楚地知道某个动作发生在第几秒,才能准确地标注出每个场景的起止时间。

两阶段训练:先学格式,再精进质量

训练这个模型分为两个阶段,有点像培养一个实习编剧的过程。

第一阶段是监督微调(SFT),相当于让实习编剧临摹大量优秀剧本。研究团队构建了一个包含42000个视频的训练数据集(TimeChatCap-42K),这些数据通过一个精心设计的流程生成:先用Gemini-2.5-Pro对视频进行粗略的场景切分和简要描述,然后再让它对每个场景生成六个维度的详细描述,最后经过多轮质量筛选剔除不合格的样本。在这个阶段,模型学会了输出的基本格式——什么是时间戳、六个维度分别是什么、描述应该多详细等等。

但仅靠模仿还不够,因为标准的训练方法存在一个根本性问题:在模型输出的所有文字中,时间戳相关的字符只占0.7%左右,而描述内容占了99.3%。就像写作文时,开头的“2026年2月17日”只有几个字,正文却有几百字。如果训练时对所有字符一视同仁,模型就很难学会精确预测时间。

第二阶段引入了一种叫做"群组相对策略优化"(GRPO)的强化学习方法。在这个阶段,模型会尝试对同一个视频生成多个不同的描述,然后根据四种奖励信号来判断哪个更好。格式奖励检查输出是否能被正确解析成规定的结构;长度奖励防止模型生成过长或过短的内容;时间戳奖励专门评估场景边界预测的准确性;字幕奖励则使用SodaM指标来评估描述内容的质量。模型通过比较自己生成的多个版本,逐渐学会哪些做法能得到更高的奖励,从而不断改进。

一个值得关注的发现是:仅用2000个训练样本进行强化学习带来的提升,比把监督微调的数据从20000个增加到40000个还要大。这说明“学会自我评价和改进”比“看更多范例”更高效。

实验结果:70亿参数模型如何击败行业领先的闭源系统

研究团队在OmniDCBench基准测试集上进行了全面的对比实验。在场景边界预测方面,TimeChat-Captioner的F1分数达到61.2,平均交并比(mIoU)达到69.6,仅次于谷歌的闭源模型Gemini-2.5-Pro。但在更重要的时间感知密集描述质量(SodaM指标)上,TimeChat-Captioner得分35.0,竟然超过了Gemini-2.5-Pro的33.7分。

TimeChat-Captioner只有70亿参数,而且完全开源;Gemini-2.5-Pro则是谷歌的商业旗舰产品,具体参数规模未公开但普遍认为远超前者。这种“以小博大”的结果证明了针对性设计和训练策略的价值。

研究团队还测试了模型在其他任务上的泛化能力。在视频问答任务上,TimeChat-Captioner在Daily-Omni和WorldSense两个基准测试中分别取得了52.8分和22.6分,大幅领先所有开源模型。在时间定位任务(给定一段文字描述,找出它对应的视频片段)上,经过在Charades-STA数据集上微调后,TimeChat-Captioner也超越了专门为此类任务设计的专家模型。

局限性与未来方向:32K上下文窗口带来的约束

研究团队坦诚地指出了当前工作的几个局限性。最主要的是32000个token的上下文窗口限制。由于视频帧按每秒2帧采样、加上平均约1000个单词的输出描述,这个窗口很快就会被填满。对于超过一分钟的长视频,目前只能采用“分段处理”的策略——先把长视频切成约一分钟的短片段,然后逐段生成描述。

未来的改进方向包括两个方面:收集更多不同时长的视频来提升模型的泛化能力,以及引入“token压缩”等技术来减少输入序列的长度,从而在相同的计算资源下处理更长的视频。

在数据来源方面,研究团队特别强调了透明度和负责任使用。训练和评估所用的所有视频都来自公开的学术数据集(MMTrail-2M和Movie101),没有收集任何私人数据。所有资源都将在负责任使用许可下发布。

这对我们意味着什么?

归根结底,TimeChat-Captioner代表的是一种让机器更深入地“理解”视频的努力。当AI能够像专业编剧一样,把视频转化为包含时间、画面、声音、镜头语言的完整剧本时,它就能更好地帮助人类与视频内容互动。

对于普通用户,这可能意味着更精确的视频搜索(“帮我找到那段厨师说‘这是关键时刻’的片段”)、更好的视频摘要、更自然的视频导航。对于视障用户,这意味着能够通过文字“看到”视频中的丰富细节,包括镜头语言和音效这些通常被忽略的信息。对于视频创作者和研究者,这提供了一种自动生成高质量视频标注的工具,可以大大降低数据准备的成本。

这项研究也展示了一个有趣的趋势:在某些特定任务上,经过针对性设计的开源小模型完全可以超越通用的大型闭源模型。这对于推动AI技术的民主化具有重要意义。

至顶AI实验室洞见

TimeChat-Captioner通过一套完整的技术方案,首次实现了对视频内容的“剧本级”理解——不仅能看懂画面上发生了什么,还能同时捕捉声音、镜头语言和叙事节奏。无论是为视障人士提供更丰富的视频解说、为短视频平台实现更精准的内容检索,还是为下一代视频生成模型提供高质量的训练数据,都需要这种既能精确定位时间又能全面覆盖视听信息的理解能力。研究团队承诺开源所有数据集、模型和代码,这意味着这些技术突破将惠及更广泛的研究社区和开发者群体。

当然,任何技术都有继续改进的空间。研究团队在论文中坦诚指出,尽管TimeChat-Captioner在密集字幕质量上取得了突破,仍有明显的优化方向。32K的上下文窗口限制了模型处理长视频的能力,目前只能采用分段处理的折中方案;对于时长差异很大的视频,模型的泛化能力也有待提升。未来可以通过token压缩技术减少输入序列长度,或者收集更多样化的长视频数据来改进这些问题。但瑕不掩瑜,TimeChat-Captioner已经为“全方位视频理解”这一目标奠定了坚实的基础。

论文地址:https://arxiv.org/pdf/2602.08711

END

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:TimeChat-Captioner生成的视频描述包含哪六个维度?

A:TimeChat-Captioner生成的剧本式视频描述包含六个维度:画面事件(角色的动作和行为)、视觉背景(场景环境和氛围)、镜头状态(摄像机角度和运动方式)、剪辑风格(多个镜头如何组接)、对话内容(角色的台词)、以及声学线索(语气语调和背景音效)。

Q2:SodaM评估指标是如何解决场景边界模糊问题的?

A:SodaM采用三步策略:首先用动态规划算法基于时间重叠度找出模型输出与标准答案之间的最优配对关系;然后将多个被分配到同一标准场景的模型输出进行合并;最后用清单式评分检查描述是否覆盖了所有关键信息点,而非简单比较用词相似度。

Q3:TimeChat-Captioner的训练数据是怎么来的?

A:研究团队构建了包含42000个视频的TimeChatCap-42K训练集。数据生成流程分为两步:先用Gemini-2.5-Pro对视频进行粗略场景切分和简要描述,再让它对每个场景生成六维详细描述,最后通过多轮质量筛选剔除不合格样本。评估用的OmniDCBench则是完全由人工标注的1122个视频。

相关内容

热门资讯

25万人将涌入,印度首次举办超... 为期五天的印度人工智能影响力峰会在新德里揭幕。这是印度首次举办该国规模最大的人工智能峰会,预计来自全...
从红包大战到数据飞轮:春节AI... 对于科技圈而言,今年春节期间最大的新闻是大模型之间的“AI大战”:阿里巴巴、腾讯、字节跳动、百度之间...
史上最AI春晚!机器人组团抢C... 编者按:拼车返乡、拼单买年货,今年过年,你“拼”了吗?当Z世代主导春节,并不意味着传统消失,而是年味...
阿里千问春节活动超1. 3 亿... 今日,阿里发文称,「千问请客」春节活动期间,有超过1.3亿人在千问点奶茶、囤年货、买电影票、买门票、...
悦动双成取得实现面对面交流的A... 国家知识产权局信息显示,北京悦动双成科技有限公司取得一项名为“一种实现面对面与人交流的AI动画数字人...