从“AI修图”热潮到昆仑万维开源Skywork UniPic:多模态融合再进阶!
创始人
2025-07-30 12:43:49
0

作者|冰拿铁

编辑|星奈

媒体|AI大模型工场

自从AI大模型落地以来,你的朋友圈是不是经常被各种AI风格的图片刷屏?从像素风、二次元到古风无所不包!各种AI软件能让你家猫主子一键变动漫主角,也能让你穿越回古代当格格!AI在手,任何一张普通的生活照、风景图,都能任意切换风格,打开新世界大门,在朋友圈美美秀一波。

不过,外行看热闹,内行看门道,如果你仅仅将这场网络狂欢视为新奇的“AI滤镜”,那你就错过了人工智能领域一个划时代的技术拐点。“动动手指就能成图”的丝滑体验,背后是原生多模态统一模型(Natively Multimodal Unified Model)的胜利。

过去,图像生成、文本理解、语音识别分属不同技术栈,堆砌成笨重的多模块系统,效率低下,复杂任务的处理效率始终上不去。而GPT-4o等行业领先者选择了统一的自回归模型架构(Autoregressive Model),将图像生成深度整合进多模态核心,实现理解与生成的“通感”联动。

这时有人就问了:这种听起来就高大上前沿技术是不是仅仅是“巨头玩具”,耗费资源且烧钱、与中小型公司无缘?我们能部署、吃上这波AI红利吗?

今天,昆仑万维开源的Skywork UniPic交出了答卷,延续上文所述先进路径的同时,以小体量、大能量的姿态,在追求模型能力极限的同时,坚持效率至上的设计理念,为研究者和开发者提供一个轻量、高效、具扩展性的统一模型基线。

一言以蔽之,AI普惠的风,还是吹到了原生多模态统一模型领域!

秉持开放协作、共享创新的理念,昆仑万维面向社区全面开放 Skywork UniPic 的核心资源:

模型权重:https://huggingface.co/Skywork/Skywork-UniPic-1.5B

技术报告:https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf

代码仓库:https://github.com/SkyworkAI/UniPic

01、

开源的Skywork UniPic背后:多模态融合的春天来了

Skywork UniPic的开源,正是上文所述技术路径的一次生动演绎,它延续了GPT-4o的技术路线并实现关键创新。

以前的 AI 像个“偏科生”,看图的只管看,画图的只管画,修图的只管修,互不干涉、而Skywork UniPic在单一模型中实现了图像理解、文生图、图像编辑三大核心能力的完美融合,一个大脑搞定多件事,成为打通多模态任督二脉的“全能战士”。这标志着人工智能向类人类认知模式,将多种感官信息融会贯通、理解与创造无缝切换迈出了坚实一步。

接下来,我们用它来挑战各种天马行空、画风各异的脑洞,看看这位图像圈“卷王”到底有多能打。

先来看文生图,输入“夕阳下的海滩上,一只蓬松的白兔竖起耳朵,正好奇地端详着一只扇贝。”

结果可见,Skywork UniPic分分钟拿捏,夕阳洒落在沙滩上,一只毛茸茸的白团子支棱着小耳朵,妥妥的氛围感加细节控,完美搞定,我的心都化了。

再来一幅老式厨房场景:铸铁水壶与陶瓷茶壶置于粗削木桌上。

Skywork UniPic表现可圈可点,厚重的铸铁水壶带着岁月的痕迹,安然放置在粗犷、未经细致打磨的原木桌上。老物件的质感、复古的气息扑面而来,想拍vintage风静物照?别拍了,直接找它就行。

上难度,来个像素风“一位圆润的像素风巫师骑着飞行烤面包机,穿梭在霓虹浸染的赛博朋克都市中;鲜活的品红与青绿调色板,戏剧性的视差滚动背景。”

来看结果:一个得得嗖嗖的巫师悬浮于色彩爆炸的霓虹高楼间,风格混搭玩得溜,我都想找个类似风格的游戏玩玩了。

再来看二次元风格:“两位寿司师傅在江户时代熙攘的街市投掷彩虹寿司。他们头顶的纸灯笼明灭闪烁。整个场景呈现出像素化的复古游戏画风。”

Skywork UniPic表示,安排!江户风情的像素街区,头顶的纸灯笼吸睛,整个画面仿佛是从某款经典日式动漫里截出来的,氛围、细节、统一画风,统统拿捏。

下面,再来看看图像编辑功能如何,据说能点哪里改哪里,说啥就换啥,有了这个功能,可以卸载美图秀秀了!

想给图片里的人加条项链?输入“Add a necklace around the neck”,指令一发,一条精美项链瞬间出现在模特的脖子上,如同原图自带,毫无PS痕迹。

嫌星星单调?换成温馨的蜡烛!输入“Replace the stars with the candle.”Skywork UniPic小手一点,直接浪漫升级。目标精准替换,意境无缝转换。

再来试试风格转绘,一键切换次元壁。先放这张原图:

输入“Switch to a Ghibli style”,图片一秒变宫崎骏风,浓浓吉卜力味儿扑面而来。

再来一个,想怀旧?输入“Switch to a pixel style”,画面元素立刻变成方块像素,怀旧复古游戏感MAX!什么现代高清图,统统给我“打码”!这小草莓太可爱了像素艺术精髓get。

最后,来考验其图片理解能力,问:图片中的狗是什么品种?

可见,Skywork UniPic看图识狗不在话下,能抓住金毛的关键特征,金黄长毛、大体型、标志性黑鼻,解释得条理清晰、有理有据。图文理解力爆表!

那么,往深处追溯,其背后有哪些技术突破、藏着哪些行业秘籍?

02、

1.5B出奇迹:小体量撬动多模态大变革!

Skywork UniPic 真正诠释了“小而美”的技术美学,以 1.5B 的轻量级规模实现了接近甚至超越大参数模型的性能表现:

首先,Skywork UniPic 指令遵循能力媲美大型模型:在 GenEval 指令遵循评估中取得 0.86 的优异成绩,超越了绝大多数同类统一模型,在无 CoT 的情况下取得了 SOTA 分数,逼近较大模型 BAGEL(7B+7B*)带 CoT 的 0.88 分;

其次,在行业竞争白热化的复杂指令生图能力领域,Skywork UniPic在 DPG-Bench 复杂指令生图基准上达到 85.5 分的行业 SOTA 水平。与此同时,Skywork UniPic 图像编辑能力稳居第一梯队,GEditBench-EN 获得 5.83 分,ImgEdit-Bench 达到3.49分,展现出精准的编辑执行能力。

Skywork UniPic凭什么实现多维领先、成为“六边形战士”的存在?在剖析其技术底座后,我们发现,Skywork UniPic在架构、数据质量、训练方式等方面,实现了前所未有的“多重统一”。

首先,架构统一,告别“各自为营”,走向“通感联动”。与OpenAI此前发布的DALL·E系列等主流依赖扩散模型(Diffusion Model)的文生图系统不同,Skywork UniPic坚定采用自回归模型架构。这是一种更接近语言本质的生成方式。

这意味着,图像被视作一种特殊的“视觉语言”,通过像素序列预测的方式自然融入多模态框架中,并非简单的技术路线选择,而是对多模态底层统一性的深刻洞察,它实现了图像与文本在统一语义空间下的表征学习、跨模态的上下文深度理解与推理、以及生成、编辑任务的端到端流程优化。

通俗地说,模型真正获得了类似人类的“通感”能力,听其言,读文本指令,知其意,懂图像理解,塑其形,玩转图像生成与编辑,三位一体,一气呵成。

而在数据建构领域,Skywork UniPic实现了“用少量优质数据达到更优效果”的目的。过去,很多人认为,模型越大越强,想要模型厉害就必须“喂”海量数据,而Skywork UniPi精选了大约一亿的高质量预训练数据和数百万条精调任务数据,比质不比量,结果证明了,高质量的小份“营养餐”比低质量的“大锅饭”强多了!

那么,Skywork UniPic如何确保这些数据质量上乘?可以说,千里马常有,而伯乐不常有。现有开源评估模型在高质量生成结果的识别上存在系统性偏差,直接制约了生成和编辑数据的筛选精度和模型训练效果。

为此,Skywork UniPic构建了两大奖励模型,通俗地说,就是两个专业度拉满的“智能评委”,Skywork-ImgReward专门评估文生图训练数据质量的好坏。Skywork-EditReward专门评估图片编辑训练数据的好坏,让在小规模高质量数据上训练出的模型表现同样出众。

第三,训练方式的进阶,任务统一,鱼与熊掌兼得。长期以来,统一模型面临“理解能力”、“生成质量”与“编辑精度”难以兼得的“三难困境”。

Skywork UniPic通过创新的渐进式多任务训练策略成功破局,阶段化能力构建(Curriculum Learning):并非粗暴混合所有任务数据,而是先精炼单一能力,如文生图,再如同“搭积木”般依次引入理解与编辑任务,由易到难,稳扎稳打,避免早期任务间的干扰与冲突。

简单来说,就是分步骤、有层次地教模型,就像学武术,基本功扎实了再练套路。

Skywork UniPic真正诠释了“小身板大能量”的技术美学,以全球首个轻至1.5B参数的紧凑规模,实现了多项能力的全面领先,以小体量实现了和“大块头”同等甚至更优的性能。

在行业看来,将实验室的尖端能力真正塞进千家万户的消费级硬件,这正是技术普惠的基石。昆仑万维用Skywork UniPic证明了,“大力出奇迹”并非模圈唯一真理,精准的架构设计、高效的数据策略与精巧的训练优化,才是撬动性能巨石的真正杠杆。

同时,部署成本“击穿地心”、急剧压缩,RTX 4090 消费级显卡皆可流畅运行,1.5B模型的消费级硬件兼容性,彻底破除了高性能多模态AI必须依赖昂贵云端算力或高端专业卡的迷信,端侧智能的体验将获得质的飞跃,高隐私、强互动成为可能,为智能创作、专业设计等场景带来生产力革命。

这让我们感慨,当技术壁垒被打破,艺术创作不再是少数专业人士的特权时,大众的想象力价值将进一步被释放。昆仑万维Skywork UniPic的出现,尤其是其1.5B的形态,进一步将这一愿景推向现实。

03、

以开源芯火,点燃AI普惠未来:昆仑万维的定力与担当

放眼未来,产业格局将迎来变革,技术门槛降低,开发者无需再为不同任务拼凑庞大复杂的技术栈,一个Skywork UniPic即可覆盖多场景需求。这极大降低了AI应用开发的门槛和周期,尤其中小企业与个人开发者将受益最深。

同时,创新生态将重构。昆仑万维的全栈开源策略,不仅技术赋能行业,更是搭建了开放的创新基础设施,这为开发者提供了“可落地、可扩展、可后训练”的基座,在我们看来,此举将激发“百花齐放”的应用生态,带来的“蝴蝶风暴”将远超模型研发者的初始构想。

而对个体用户来说,受益的是每一个被技术赋能的普通人。当模型能力融入日常工具,当创意灵感不受硬件桎梏,我们将迎来前所未有的全民创意大爆炸。

昆仑万维的坚持,体现了一家技术驱动型厂商的战略定力与产业担当。此前,其持续重金投入研发,2024年研发费用15.4亿元,同比大增59.5%,就让行业印象深刻。而在成果、产出上,昆仑万维聚焦垂类场景商业化,表现同样可圈可点,Skywork Super Agents、AI音乐Mureka、短剧平台DramaWave都是成功实践。

此前,截至2025年第一季度,其短剧平台DramaWave年化流水收入ARR(订阅服务下,企业年度经常性收入)达1.2亿美元,月均1000万美元;AI音乐年化流水收入ARR达到约1,200万美金(月流水收入约100万美金)。

往深处看,这份以技术研发引领行业发展、以产品力加固护城河、以开放普惠拥抱未来的格局与智慧,背后是昆仑万维作为AI领域头部厂商,“有态度、有技术、有力度”的体现:

做难而正确的事,以核心技术构筑长期壁垒,并通过开源共享推动行业整体水位的提升。正如昆仑万维董事长方汉所言:宁为鸡口,不为牛后,要懂得从终局思考,在当下的大模型竞赛中,更需要在自己熟悉的赛道中做到“SOTA”。

如今,在追逐万亿参数的浮躁喧嚣中,昆仑万维选择沉下心来,锻造Skywork UniPic这把劈开多模态技术局限的利刃,这份对技术的敬畏与开源普惠的诚意,值得行业的尊重。期待未来,昆仑万维带来更多“SOTA时刻”。

相关内容

热门资讯

摩托车油箱加白糖会怎样 摩托车... 摩托车油箱加白糖会怎样?这是一个常见的问题,但是很少有人知道,如果将白糖混入机油中,会对摩托车的发动...
国产最好的四驱越野房车 国产最... 国产最好的四驱越野房车是东风挑战者。车身外尺寸为5990x2280x3150(加高顶)mm,车厢内高...
宇通客车价格 宇通客车价格 宇... 宇通客车55座的价格大致为37.80万元到78.80万元每辆。宇通ZK6148HQB(模块化造型柴油...
摩托车高速有一顿一顿像断油 摩... 摩托车在高速行驶时出现一顿一顿的情况,可能是由多种原因引起的,其中包括油箱出油量小、化油器堵塞、电喷...
五羊自行车质量好吗 五羊自行车... 五羊自行车的质量如何?五羊自行车的质量非常好。它采用了人机工程学模型,使坐姿更加舒适,车把装扮和闪避...
杭州出租车电话 杭州出租车电话... 杭州出租车的电话是什么?杭州出租车24小时叫车电话是95128。这是全国统一的出租车叫车服务热线,全...
赤兔5和赤兔6的区别 赤兔5和... 赤兔5和赤兔6的区别赤兔5和赤兔6在造型和风格上有明显的不同。1. 造型方面。赤兔6的前脸采用了蜂巢...
奔驰c260l首付15万月供多... 关于奔驰C260L皓夜运动款的首付15万元,月供多少的问题,经过计算,大概需要贷款20万元左右,如果...
买宝马x7十大忠告 买宝马x7... 买宝马X7的十大忠告1. 宝马X7是一款怎样的车型?它代表着宝马以“7”结尾的旗舰系列车型,定位为大...
上路价和落地价什么意思 上路价... 上路价和落地价是购买汽车时常见的两个价格概念,它们指的是相同的含义。落地价是指购买一辆车时需要支付的...