作者|参商
编辑|星奈
媒体|AI大模型工场
我的朋友圈有一位隐形大佬,他是我在从事影视的时候结识的一位电影导演好友,欧洲学院派出身,曾拍出过一部戛纳影展提名短片,不过他长期潜水只给别人点赞。然而就在15号晚上,他极其罕见的发了一条朋友圈:
没错,15号是快手可灵2.0模型发布的日子。虽然以前身边的影视同行也有在讨论生成式AI,特别是在23/24年AI大模型侵权风波期间讨论得最为激烈。但当时大家谈论的还是传统电影工业别具一格的匠心完胜只会抄袭没有灵魂的AI机器人。
现在,我亲眼目睹了越来越多的行业从业者认可AI大模型产品所带来的便利性与高质量内容。
回到可灵2.0本身,这是快手科技4月15日在北京中关村国际创新中心,面向全球发布的全新图像生成模型,借此快手可灵完成了基座模型的再次升级。
可灵2.0模型在动态质量、语义响应、画面美学等维度,保持全球领先。例如在文生视频领域,可灵2.0对比谷歌Veo2的胜负比为205%,对比Sora的胜负比达367%,在文字相关性、画面质量、动态质量等维度上显著超越对手。
在去年12月的时候,我们简单体验过可灵1.6,现在也是时候来和前作比一比了hhhhhh!
一、从头到脚,全面升级
现在进入可灵的界面可以看到已经可以选择“可灵2.0大师版”了,这个模型适用于图生视频和文生视频。此外还新增加了“多模态编辑”这个功能,支持基于视频+文字图片,进行多种灵活修改和再创作(此功能依旧由可灵1.6提供):
我的Prompt是“生成一个模拟真实世界的,在大海中远洋航行的万吨货轮,画面从货轮慢慢摇到茫茫大海”。我们来看看这次可灵2.0的杰作:
可以看到可灵2.0非常还原真实,些微有点过曝的天空,更稳定的船体和尾迹,都让可灵2.0所生成的内容,全面超越了可灵1.6的质感,更具真实物理世界效果。
如果是在真实物理世界的效果已经有这么高的水平了,那在非真实物理世界,两者的差距又体现在哪里呢?这次我们的Prompt是“生成一个模拟迪士尼早期手绘画风的童话世界,女主角在与森林里的动物交流,并快乐的起舞”,我们来看看可灵1.6的生成效果:
可以看到整体呈现的效果虽然很符合我们的要求,但是客观的来说,这并不能算是视频,更像是画面平滑运动关键帧动画,画面本体没有任何变化只是一张纯图,然后摄像机从左到右扫了一下而已。然后我们再来看看可灵2.0的大作:
对比下来不难发现,可灵2.0真的是秒了可灵1.6。虽然画面内容已经不符合早期迪士尼的那种手绘画风,而是那种3D建模风,但画面细腻动作流畅,小动物们围着主人绕,颇有一丝《爱丽丝梦游仙境》内味。当然缺陷还是有的,细节做的不够到位,特别是动物的尾巴。但是灵动的画面质量已经撑得起流媒体时代观众的检阅了。
既然刚刚我们已经接连测试过两个文生视频了,我们接着再来看看这次“可灵2.0大师版”对比可灵1.6在图生视频的效果上的提升吧,原图如下:
美漫的画风是非常粗糙大线条的,并且美漫对于光线质感的运用是顶级的,同时美漫高对比、高色彩饱的特点更是疯狂挑战生成式AI对细节的把控。
这张图的难点是墙上和地面斑驳的纹理、摩托与蝙蝠侠自身形成的强冷暖对比、尾气和轮胎摩擦地面形成的细腻烟雾,以及随风飘扬的斗篷,可谓是难点值全部拉满了。我们还是先来看可灵1.6的效果:
咋一看很不错,但其实禁不起推敲。斑驳的纹理没有了,变成了平滑到像摸了10顿凡士林一样的油画质地,虽然保留了冷暖对比色调但是没有了烟雾这种细节,整个摩托像是悬在半空中,并且斗篷明明都被吹变形成这样了还是始终朝着一个方向一个轮廓飘,绑个塑料袋也不是这样的吧(流汗~),活脱脱像是有根线在后面拉着斗篷,整体非常的不自然。当然能做到这一步,在可灵1.6刚发布的时候是非常牛的,但是现在是25年4月了,越来越多的厂商能达到这个水平了,和文生视频一样,还是能打的,但是也不多了。
再来看可灵2.0的:
两个对比下来不难发现这质觉都不像一个时代的产物。可灵2.0虽然也带有一些油画质感,但是增加了地面反光效果,同时丰富了城市面貌的整体光影,再加上摩天高楼和 招牌上的各类霓虹灯光,整体像是开了“光追”,充满了显卡的味道。而且2.0给画面编了一套运镜,并且还加入了摩托的运动轨迹和蝙蝠侠骑车姿态的调度,斗篷也有了更符合物理逻辑的飘动,整体颇有一丝“电影感”。
从上述三个实测案例不难发现,整体而言可灵2.0补在局限于只是单纯的让画面动起来这么简单了,而是如何动得好看美观、更有逻辑更加精致。
最后来看一下这次新增的“多模态编辑”功能,你可以使用图片或者描述,对上传的视频进行画面内元素的替换、增加、删减。听起来是真的非常牛B,于是我决定给可灵上个难度,在这里上传了一段天坛的延时影像:
我的要求是去除掉画面当中的游客,系统会让我框选一下需要进行修改的选区:
选择完成并确定后就可以开始生成了,我们来看看可灵的能力:
客观的来说,不太行。可以看到可灵确实是把我的选区里的人给去掉了,但是天坛的底座也完全变了模样。而且我没有选中的天坛本体大致还是用的视频原,但底座是全新渲染的一个,显得上下两部分非常割裂。一个实景一个虚拟,一个锐化一个涂抹,观感上不太舒服,糊弄糊弄老人小孩还行,对于大对数人来说,都会产生“你这个怎么这么假呢”的感叹,所以这个“多模态编辑”功能,目前还仅停留在图一乐阶段。
整体而言这次可灵2.0的提升是巨大的,是肉眼可见的巨大的。虽然新加入的“多模态编辑”功能因为目前还只能依靠可灵1.6模型来实现,效果也不尽如人意,但至少也是补齐了缺失相关AI生成式视频修改功能的短板。总体看下来,这一次可灵的视频生成版块的全面升级,可以视作是一次从头到脚的极大升级,特别是可灵2.0的面世,再一次带领快手可灵走在视频生成大模型领域的前列。
二、用心与创作者链接
这次的发布会很特殊。快手高级副总裁、社区科学线负责人盖坤除了聊产品参数,还给出了一些额外信息:自去年6月可灵发布以来,可灵AI已累计完成超20次迭代。作为全球首个用户可用的DiT视频生成模型,截至目前,可灵AI全球用户规模已突破2200万,累计生成1.68亿个视频及3.44亿张图片素材。自去年6月上线至今的10个月时间里,可灵AI的月活用户数量增长25倍。
盖坤认为,AI在辅助创意表达上拥有巨大潜力,但当前的行业发展现状还远远无法满足用户需求,在AI生成内容的稳定性、以及用户复杂创意的精确传达上仍有“很多挑战”。也因此,要真正实现“用AI讲好每一个故事”的愿景,必须对基模型能力进行全方位提升,定义人和AI交互的“全新语言”。
在本文刚开始的时候我提到过,在我还在影视行业的时候,身边的从业者谈论大模型最多的问题并不是生成的内容有多好,而是侵权。讨论的永远是“今天又扒了哪个大触的本子,明天又‘借鉴’了哪个导演的画风”,似乎生成质量并不重要,因为不论好坏都是盗用的别人心血来训练的,最关键的是没给钱还大张旗鼓的宣传,显得“小人得志”。
而快手的可灵选择了另辟蹊径。用多模态参考信息去生成多模态内容,是这次可灵2.0整体所带来的最大升级,也是快手可灵长期与用户(即创作者)交流下来所交出的答卷。快手科技始终作为一个提供内容创作的平台,正在持续的以用户角度出发,去平衡科技与内容的关系。
盖坤披露,来自世界各地的超1.5万开发者,已将可灵的API应用于不同的行业场景中,累计生成的图像数量约1200万个,生成的视频素材超过4000万个。现在的可灵正在成为AI时代视频创作的新基础设施。AIGC技术正在重构多个创意行业。
就像可灵AI超级创作者、《新世界加载中》总导演、异类Outliers创始人陈翔宇在发布会中介绍的一样,AIGC相较于实拍和动画“可灵AI可全面融入剧集级创作流程”,不仅是效率的提升,更是试错空间的革命性释放:
在上次快手发布可灵1.6的同时,快手就搞了个大动作:宣布中国首个AIGC导演共创计划在快手平台上线。由可灵联合李少红、贾樟柯、叶锦添、薛晓路、俞白眉等9位极具行业代表力的知名一线大导,打造了9部风格迥异的AIGC电影短片。
并且这9部AIGC电影短片均被中国电影博物馆永久收藏、放映展示,以作为对中国首个AIGC导演共创计划成果的认可与意义的肯定。这是国内主流导演届第一次大规模的集体使用AI产品进行内容的创作。
而这一次发布会上张迪同样发起了一项名为“可灵AI NextGen 新影像创投计划”的新计划。该计划将加大可灵对于AIGC创作者的扶持力度,通过千万资金投入、全球宣发、IP打造和保障,以全资出品、联合出品和技术支持等合作方式,让AI好故事走向世界。同时,可灵AI面向全球创作者发出征集邀约,邀请用户共同打造全球首支用户共创AI创意短片。
可以预见的是,未来的可灵AI将持续大力推动技术创新,用人与AI交互的全新语言,帮助用户实现复杂创意的精确表达,正如张迪所说:“我们的初心,是让每个人都能用AI讲出好的故事,我们也真切地希望这一天更快到来”。相信在将来,在以快手可灵这样用心链接内容创作者的平台带领下,技术厂商与内容创作者终将达成有序持久的和解。