上证报中国证券网讯(记者 孙小程)4月27日,阶跃星辰正式发布并开源图像编辑大模型Step1X-Edit。该模型总参数量为19B (7B MLLM + 12B DiT),具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持11类高频图像编辑任务类型,如文字替换、风格迁移、材质变换、人物修图等。据介绍,Step1X-Edit不只能“改图”,更能“听得懂、改得准、保得住”。
在技术层面,Step1X-Edit采用MLLM(Multimodal LLM)+ Diffusion的解耦式架构,分别负责自然语言理解与高保真图像生成,相比现有图像编辑模型,该架构在指令泛化能力与图像可控性上更具优势。
MLLM模块负责处理自然语言指令与图像内容,具备多模态语义理解能力,可将复杂编辑需求解析为latent控制信号;Diffusion模块作为图像生成器(Image Decoder),根据MLLM生成的latent信号完成图像的重构或局部修改,确保图像细节保真与风格统一。这一结构打破了传统pipeline模型中“理解”和“生成”各自为政的问题,使模型在执行复杂编辑指令时具备更高的准确性与控制力。