昆仑万维:推出并开源多模态统一预训练模型Skywork UniPic
创始人
2025-07-30 17:13:03
0

中证报中证网讯(王珞)7月30日,昆仑万维正式推出并开源采用自回归路线的“多模态统一预训练模型Skywork UniPic”,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力。该模型基于大规模高质量数据进行端到端预训练,具备良好的通用性与可迁移性。

昆仑万维介绍,GPT-4o的迅速走红,标注着人工智能领域多模态统一预训练模型的成熟。Skywork UniPic延续了GPT-4o的自回归范式,在单一模型中深度融合图像理解、文本生成图像(T2I)与图像编辑三大核心任务,构建了真正统一的多模态模型架构。

传统多模态统一模型多依赖VQ或VAE编码器来压缩视觉内容,虽然具备一定效果,但也存在局限性,它们更侧重保留图像的视觉细节而非语义信息,这会在一定程度上削弱模型的图像理解能力。

为此,Skywork UniPic团队借鉴Harmon架构设计,并在表征方式上做出关键调整:采用MAR编码器作为图像生成路径的视觉表征基础,同时引入SigLIP2作为图像理解路径的主干。

Skywork-UniPic模型核心能力包含:图文理解、图像生成、图像编辑。此外,Skywork-UniPic完成端到端优化流程,能够实现生成、理解、编辑三大能力的协同训练和相互促进,突破传统方法中能力权衡的技术瓶颈。

这一架构设计不仅保持了自回归模型的简洁高效,更通过共享编码器实现了跨任务的深度协同,为多模态统一模型的实用化部署奠定了坚实基础。用户只需要输入提示词,Skywork-UniPic既可以像VLM一样理解图像、像T2I模型一样生成图片,还可以像美图工具一样,一键实现风格转绘/吉卜力化的编辑功能。

公司表示,在追求模型能力极限的同时,也坚持效率重要性的设计理念。Skywork UniPic以1.5B的紧凑参数规模,真正诠释了“小而美”的技术美学。

过去半年,昆仑万维已经开源了多个SOTA大模型,涵盖奖励模型、推理、软件工程、多模态、空间智能等领域。本次Skywork-UniPic正式加入“Skywork”开源大家庭,让AI真正成为每个人触手可及的创意伙伴。

相关内容

热门资讯

知识储备增加,如何通过终身学习... 在当今这个信息爆炸的时代,知识更新的速度前所未有,一个人的知识储备,很大程度上决定了他的竞争力和适应...
q5l致雅和动感哪个卖得最好 ... 奥迪Q5L动感型是奥迪首款长轴距高档中型SUV,与致雅型相比,动感型在销量上表现更出色。动感型的前脸...
galaxy是什么品牌的自行车... Galaxy是什么品牌的自行车?Galaxy山地车就是格莱仕山地车业。 格莱仕(GALAXY)XC5...
轮胎w和v的区别哪个好 轮胎w... 轮胎W和V的区别主要体现在它们的认证速度级别上。轮胎W比轮胎V更好,因为它最高可支持的车速为270千...
奥迪tt二手开不起 奥迪tt二... 奥迪TT二手车的开不起,原因有以下几点。 1. 奥迪TT是奥迪汽车集团推出的一款高性能跑车,自上市以...
苏州禁摩吗 苏州禁摩吗 苏州禁... 一、苏州是否禁摩托车 1、是的,苏州市区已经停止发放摩托车车牌,也不能办理通行证。但是,本市户籍人员...
小牛电动车续航突然大幅下降 小... 小牛电动车续航突然大幅下降,可能是什么原因?电动车在行驶过程中突然断电,可能是由于电瓶电源的供电线接...
13公里开车要走多久 13公里... 开车行驶13公里所需的时间范围大致在7分钟至47分钟之间,具体取决于多种因素。在高速公路上,以时速1...
抖店扣分了4分可以补回来吗 抖... 抖店被扣4分处罚2000的原因是因为其违规或者出现欺骗消费者行为,这些行为都有证据可以证明。一旦出现...
宾利宝马哪个贵 宾利宝马哪个贵... 宾利和宝马哪个更贵?宾利的价格相对较高,这是因为它的年产量只有5000辆,而且手工制造,因此更加稀缺...