新智元报道
编辑:KingHZ 犀牛
【新智元导读】 当多数图像AI还停留在「会生成、不会懂空间」的阶段,京东开源JoyAI-Image-Edit,把图像编辑从平面修图推向空间智能,也让外界第一次看清:京东的AI布局,从来不是追风口,而是死磕自己最有胜算的真实场景。
这一刻,图像AI升维了!
过去两年,我们见过太多「神级」图像模型——画猫比真猫还毛茸茸,画赛博朋克街道比电影还炫,画一只手有六根手指也能让你觉得是艺术。
Grok生成的AI图像(上下滑动)
所有人都以为,图像AI已经快到头了。
直到你真的上手用它干点正经事——想换个角度看看自家客厅?透视关系瞬间崩塌,沙发像在漂浮,落地灯穿墙而过。
想把前景的苹果和后面的书调一下前后顺序?遮挡关系直接错乱,比例全面失衡,画面宛如一场灾难现场。
你气不气?你崩不崩溃?
它们会画画,却不懂空间。
它们能生成惊艳的像素,却看不懂像素背后那个立体的、有前后、有深度、有光影逻辑的真实世界。
它们是熟练的「平面裱糊匠」,却不是懂事的「空间观察者」。
这道坎儿,横在图像AI面前。
谁来迈?
JoyAI-Image-Edit
把「空间智能」刻进骨子里的开源模型
4月初,京东探索研究院正式对外开源自研的JoyAI-Image-Edit图像模型。
代码已经放在GitHub上,以Apache 2.0协议释出,推理代码全部开放,开发者可以直接拿去做应用。
目前,系统已完成对ComfyUI的支持,并全面兼容Diffusers格式的模型权重与推理流程,方便开发者进行灵活部署与二次开发。
链接:https://github.com/jd-opensource/JoyAI-Image
体验地址:https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space
开源权重:https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit
这是一件大事。
因为它不是又一个「更好用的AI修图工具」,而是业内首个把「空间智能」写进模型架构底层的开源一体化图像模型,让模型真正「理解空间,编辑空间」。
野心就写在标题上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》,直译过来就是「在统一的多模态理解与生成中,唤醒空间智能」。
技术上,JoyAI-Image把一个80亿参数的多模态语言模型(MLLM)和一个160亿参数的多模态扩散Transformer(MMDiT)耦合在一起,形成一个共享接口,让空间意图从指令解析一路贯穿到图像生成。
更关键的是它背后的数据和训练哲学:一条可扩展的数据流水线,包含空间理解数据(OpenSpatial)、长文本渲染数据、编辑数据(SpatialEdit),再加上多阶段的优化策略。
这套架构的精髓在哪?
在于「理解」和「生成」第一次形成了真正的闭环。
过去的图像模型,理解归理解、生成归生成,两边各玩各的。
而JoyAI-Image的核心原则是理解、生成、编辑三者之间的闭环协作:更强的空间理解让生成和编辑更可控,而视角变换这类生成操作又反过来为空间推理提供新的证据。
JoyAI-Image在图像理解、合成与编辑方面均展现了全面领先的能力
说人话就是:模型一边「看」一边「画」,一边「画」又帮它看得更清楚。
这才是真正意义上的空间智能觉醒。
落到具体能力上,JoyAI-Image支持三种空间编辑提示范式:物体移动(Object Move)、物体旋转(Object Rotation)和相机控制(Camera Control)。
第一,相机控制。你可以用一句大白话告诉它——「把相机往右偏30度,往下俯15度,再拉近一点」——模型会在保持场景几何一致性的前提下,给你生成一张全新视角的图像,透视关系、遮挡关系、光影关系全都对得上。
编辑指令:Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.
编辑指令:Move the camera.
Camera rotation: Yaw -45.0°, Pitch 22.5°.
Camera zoom: unchanged.
Keep the 3D scene static; only change the viewpoint.
第二,物体旋转与空间漫游。支持连续的视角移动,能生成一整串逻辑连贯的多视角图像序列。
什么意思?就好像你戴着一台虚拟相机,真的在这个三维场景里「走动」,每一帧都立得住。
编辑指令:Rotate the sneaker to show the front view.
编辑指令:rotate the girl to show the rear left side view.
编辑指令:rotate the elephant to show the front view.
第三,物体空间关系操控。挪动、旋转、缩放画面中的任何一个物体,场景整体结构保持稳定,遮挡自然合理,光影过渡顺滑,不会再出现变形、错位、比例失衡那些老毛病。
编辑指令:Move the coffee into the red box
编辑指令:move the red car into the red box, remove the red box, remove the red car
这种空间编辑能力带来很多有趣的新玩法──
给定第一帧(下图左)后,你利用空间编辑能力生成视频的最后一帧(下图右)。
然后,由视频生成模型在两者之间创建平滑的旋转过渡,还能保持背景的一致性。
更硬核的是横评。
和Qwen-Image-Edit、Nano Banana Pro相比,JoyAI-Image-Edit能够忠实执行相机运动,合成最具诊断性的新视角,这些高保真的新视角有效地消除了复杂空间关系的歧义。
同样让模型「换个角度看世界」,别人换出来的画面或许能看,但JoyAI-Image-Edit换出来的画面,是真的对,这对于把模型投入真实生产和应用环境来说至关重要。
与此同时,它还全面兼容15类通用编辑能力——替换、删除、添加、风格迁移、细节精修、长文本渲染,样样拿得出手;尤其在空间推理、长文本渲染以及空间可控操作上表现尤为出色。
比如,输入一行指令就给小猫戴上皇冠。
或者将行人从图片中移走。
长文本渲染更是拿手。
顶尖的空间编辑×全面的通用编辑,这是真正的「文武双全」。
为什么是电商和具身?
一个模型的价值,不在跑分,而在用在哪。
JoyAI-Image-Edit最能发挥威力的两个战场,一个是电商,一个是具身智能——恰好都是京东的主场。
做电商的品牌客户,是对空间编辑最饥渴的用户。
一件商品拍进来,要换背景、换角度、换搭配、换场景、换光线。
过去这些活儿要么靠摄影师重拍,要么靠设计师通宵P图,要么靠AI生成一堆「塑料感」假图。
有了JoyAI-Image-Edit,一张主图可以自动衍生出几十种视角和场景,商品还是那个商品,形象保持一致,细节不穿帮,成本直接砍到脚踝。
对于服务着数百万商家的京东来说,这不是锦上添花,这是水和电。
具身智能的场景,则是空间理解最硬的刚需。
机器人要在真实世界里干活,第一件事就是「看懂」空间——哪是桌子、哪是椅子、杯子离我多远、我伸手能不能够到。
空间理解能力,就是机器人「理解世界」的核心底座。
而机器人行业的卡脖子问题是「数据」,如何能生产海量供机器人训练的数据,光靠本体采集、遥操是不够的,这时候JoyAI-Image-Edit能派上很大用场。
在具身智能的实测演示中,用户只需输入一句自然语言提示词(比如「机器人左手举起来」),并用画框框选目标区域,就能对指定物体的动作、姿态和旋转角度进行精细化操控.
在机器人做家务的实拍场景里,模型完整保留了背景环境、物体空间关系与物理合理性,生成了机器人抬手的全新姿态。
这已经不是「修图」,这是给机器人预演动作,也给机器人走进生活提供了大量优质的数据养料。
现在,京东正在将AI能力融入其「超级供应链」。
把空间智能的钥匙交给所有人
这一次,京东选择了Apache2.0协议开源,任何开发者、任何企业都可以自由地使用、修改、商用这个模型。
这件事的分量比想象中要重。
因为空间智能是通往AGI的「最后一公里」——一个AI如果连物体在空间中的位置关系都搞不清楚,谈何理解世界?
而把这样一个在空间一致性上达到世界一流水准的模型彻底开源,等于把一把关键钥匙交到了整个社区手里。
对电商从业者,它是成本杀手;对设计师,它是随身的三维助手;对机器人团队,它是视觉感知的现成底座;对学术研究者,它是可以站在上面继续往前走的巨人肩膀。
更重要的是,它让空间智能这件事,不再是少数几家闭源巨头的专利。
不追风口,只押自己最懂的场景
这两年大厂卷AI卷得飞起,参数比大小、榜单比名次、发布会比排场,每个人都想成为下一个OpenAI。
但京东的节奏一直挺「稳」——不凑热闹,不跟风,它的AI布局始终死死咬住一条主线:聚焦自己最懂、最具禀赋的实体场景,把AI扎到产业最深处。
过去一段时间,京东在AI上的动作密集得惊人:
开源基础大模型JoyAI-LLM Flash,用基于「纤维丛」理论的FiberPO强化学习方法,在19个权威基准上跻身一梯队;
京东云「龙虾」系列产品上线后,一周token调用量环比暴涨455%;
数字人JoyStreamer性能超越国际SOTA,覆盖电商直播、文旅讲解、新闻主播20多个场景;
JoyInside附身智能已经深度接入近百个家电家居品牌、40多个机器人与AI玩具品牌,接入后带动硬件对话轮次平均提升120%;
更猛的是,京东宣布要建全球规模最大、场景最全的具身智能数据采集中心,两年内攒下超过1000万小时真实场景数据,动员数十万人搞「人类史上最大的数据采集行动」。
看懂这份清单,你就看懂了京东的AI逻辑:零售、物流、工业、健康、具身——每一步都踩在自己的供应链和场景资源上。
别人在云端打参数战,京东在地上打场景战。
别人在比谁的模型更聪明,京东在比谁的AI更能干活、更能赚钱、更能落地。
而这一次开源的JoyAI-Image-Edit,正是这套打法的最新一块拼图。
京东的打法也给整个行业提了个醒:AI的竞争,终究不是参数的竞争,而是场景的竞争、落地的竞争、价值的竞争。
谁最懂自己的主场,谁就能把AI真正用起来。
零售、物流、工业、具身——京东把AI扎进了自己最肥沃的那几亩地,然后让种子在产业的土壤里发芽。
属于空间智能的时代,才刚刚开始。
注:文中部分输入图来源于Arena