昆仑万维:推出并开源多模态统一预训练模型Skywork UniPic
创始人
2025-07-30 17:13:03
0

中证报中证网讯(王珞)7月30日,昆仑万维正式推出并开源采用自回归路线的“多模态统一预训练模型Skywork UniPic”,在单一模型中深度融合图像理解、文本到图像生成、图像编辑三大核心能力。该模型基于大规模高质量数据进行端到端预训练,具备良好的通用性与可迁移性。

昆仑万维介绍,GPT-4o的迅速走红,标注着人工智能领域多模态统一预训练模型的成熟。Skywork UniPic延续了GPT-4o的自回归范式,在单一模型中深度融合图像理解、文本生成图像(T2I)与图像编辑三大核心任务,构建了真正统一的多模态模型架构。

传统多模态统一模型多依赖VQ或VAE编码器来压缩视觉内容,虽然具备一定效果,但也存在局限性,它们更侧重保留图像的视觉细节而非语义信息,这会在一定程度上削弱模型的图像理解能力。

为此,Skywork UniPic团队借鉴Harmon架构设计,并在表征方式上做出关键调整:采用MAR编码器作为图像生成路径的视觉表征基础,同时引入SigLIP2作为图像理解路径的主干。

Skywork-UniPic模型核心能力包含:图文理解、图像生成、图像编辑。此外,Skywork-UniPic完成端到端优化流程,能够实现生成、理解、编辑三大能力的协同训练和相互促进,突破传统方法中能力权衡的技术瓶颈。

这一架构设计不仅保持了自回归模型的简洁高效,更通过共享编码器实现了跨任务的深度协同,为多模态统一模型的实用化部署奠定了坚实基础。用户只需要输入提示词,Skywork-UniPic既可以像VLM一样理解图像、像T2I模型一样生成图片,还可以像美图工具一样,一键实现风格转绘/吉卜力化的编辑功能。

公司表示,在追求模型能力极限的同时,也坚持效率重要性的设计理念。Skywork UniPic以1.5B的紧凑参数规模,真正诠释了“小而美”的技术美学。

过去半年,昆仑万维已经开源了多个SOTA大模型,涵盖奖励模型、推理、软件工程、多模态、空间智能等领域。本次Skywork-UniPic正式加入“Skywork”开源大家庭,让AI真正成为每个人触手可及的创意伙伴。

相关内容

热门资讯

汽车仪表盘图标解释 汽车仪表盘... 以下是车主指南汇总的汽车仪表盘所有图标大全:汽车仪表盘是汽车驾驶过程中非常重要的信息展示区域,其中包...
科目四需要预约吗? 科目四需要... 科目四考试是需要进行预约的。预约科目四主要有两种方式。首先,可以选择与科目三一并预约,这种方式下,学...
科目二离合器控制技巧 科目二离... 以下是关于科目二离合器控制技巧的文章: 一、拉直线认识离合。 在进入科目二考试前,学员需要先掌握拉直...
汽车三包包括哪些内容 汽车三包... 汽车三包是指汽车产品在一定的时间内,如果出现产品质量问题,消费者可以享受修理、更换和退货的权利。根据...
不去加油站可以圈存吗 不去加油... 不去加油站也可以进行圈存操作。需要注意的是,圈存操作必须在加油站设置的自助终端机上完成。虽然看似多此...
下雨天后视镜有雨水看不清怎么办... 在雨天驾驶时,后视镜因雨水而模糊不清是一个常见问题,但有多种有效方法可以解决这一困扰:1. 安装防雨...
科目一第二次要交钱吗 科目一第... 科目一考试在当场补考的情况下是不需要重新交费的,但如果当天的两次考试机会都用完了,那么再次预约考试就...
别克英朗是哪国车 别克英朗是哪... 别克英朗是一款源自美国的汽车,它承载着别克品牌的经典传承与创新精神。作为美国通用汽车旗下的重要品牌,...
c1驾照可以自学自考吗 c1驾... 对于C1驾照的自学自考,答案是可以的。根据《机动车驾驶证申领和使用规定》第26条,小型汽车和小型自动...
一竖车标志是什么车 一竖车标志... 一竖车标志代表着长城汽车集团旗下的高端SUV品牌WEY。WEY品牌源自于长城汽车创始人魏建军Jack...