重磅开源！240亿参数力压Nano Banana 2_科学探索

重磅开源！240亿参数力压Nano Banana 2

创始人

2026-04-11 22:38:55

新智元报道

编辑：KingHZ 犀牛

【新智元导读】当多数图像AI还停留在「会生成、不会懂空间」的阶段，京东开源JoyAI-Image-Edit，把图像编辑从平面修图推向空间智能，也让外界第一次看清：京东的AI布局，从来不是追风口，而是死磕自己最有胜算的真实场景。

这一刻，图像AI升维了！

过去两年，我们见过太多「神级」图像模型——画猫比真猫还毛茸茸，画赛博朋克街道比电影还炫，画一只手有六根手指也能让你觉得是艺术。

Grok生成的AI图像（上下滑动）

所有人都以为，图像AI已经快到头了。

直到你真的上手用它干点正经事——想换个角度看看自家客厅？透视关系瞬间崩塌，沙发像在漂浮，落地灯穿墙而过。

想把前景的苹果和后面的书调一下前后顺序？遮挡关系直接错乱，比例全面失衡，画面宛如一场灾难现场。

你气不气？你崩不崩溃？

它们会画画，却不懂空间。

它们能生成惊艳的像素，却看不懂像素背后那个立体的、有前后、有深度、有光影逻辑的真实世界。

它们是熟练的「平面裱糊匠」，却不是懂事的「空间观察者」。

这道坎儿，横在图像AI面前。

谁来迈？

JoyAI-Image-Edit

把「空间智能」刻进骨子里的开源模型

4月初，京东探索研究院正式对外开源自研的JoyAI-Image-Edit图像模型。

代码已经放在GitHub上，以Apache 2.0协议释出，推理代码全部开放，开发者可以直接拿去做应用。

目前，系统已完成对ComfyUI的支持，并全面兼容Diffusers格式的模型权重与推理流程，方便开发者进行灵活部署与二次开发。

链接：https://github.com/jd-opensource/JoyAI-Image

体验地址：https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space

开源权重：https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

这是一件大事。

因为它不是又一个「更好用的AI修图工具」，而是业内首个把「空间智能」写进模型架构底层的开源一体化图像模型，让模型真正「理解空间，编辑空间」。

野心就写在标题上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》，直译过来就是「在统一的多模态理解与生成中，唤醒空间智能」。

技术上，JoyAI-Image把一个80亿参数的多模态语言模型（MLLM）和一个160亿参数的多模态扩散Transformer（MMDiT）耦合在一起，形成一个共享接口，让空间意图从指令解析一路贯穿到图像生成。

更关键的是它背后的数据和训练哲学：一条可扩展的数据流水线，包含空间理解数据（OpenSpatial）、长文本渲染数据、编辑数据（SpatialEdit），再加上多阶段的优化策略。

这套架构的精髓在哪？

在于「理解」和「生成」第一次形成了真正的闭环。

过去的图像模型，理解归理解、生成归生成，两边各玩各的。

而JoyAI-Image的核心原则是理解、生成、编辑三者之间的闭环协作：更强的空间理解让生成和编辑更可控，而视角变换这类生成操作又反过来为空间推理提供新的证据。

JoyAI-Image在图像理解、合成与编辑方面均展现了全面领先的能力

说人话就是：模型一边「看」一边「画」，一边「画」又帮它看得更清楚。

这才是真正意义上的空间智能觉醒。

落到具体能力上，JoyAI-Image支持三种空间编辑提示范式：物体移动（Object Move）、物体旋转（Object Rotation）和相机控制（Camera Control）。

第一，相机控制。你可以用一句大白话告诉它——「把相机往右偏30度，往下俯15度，再拉近一点」——模型会在保持场景几何一致性的前提下，给你生成一张全新视角的图像，透视关系、遮挡关系、光影关系全都对得上。

编辑指令：Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.

编辑指令：Move the camera.

Camera rotation: Yaw -45.0°, Pitch 22.5°.

Camera zoom: unchanged.

Keep the 3D scene static; only change the viewpoint.

第二，物体旋转与空间漫游。支持连续的视角移动，能生成一整串逻辑连贯的多视角图像序列。

什么意思？就好像你戴着一台虚拟相机，真的在这个三维场景里「走动」，每一帧都立得住。

编辑指令：Rotate the sneaker to show the front view.

编辑指令：rotate the girl to show the rear left side view.

编辑指令：rotate the elephant to show the front view.

第三，物体空间关系操控。挪动、旋转、缩放画面中的任何一个物体，场景整体结构保持稳定，遮挡自然合理，光影过渡顺滑，不会再出现变形、错位、比例失衡那些老毛病。

编辑指令：Move the coffee into the red box

编辑指令：move the red car into the red box, remove the red box, remove the red car

这种空间编辑能力带来很多有趣的新玩法──

给定第一帧（下图左）后，你利用空间编辑能力生成视频的最后一帧（下图右）。

然后，由视频生成模型在两者之间创建平滑的旋转过渡，还能保持背景的一致性。

更硬核的是横评。

和Qwen-Image-Edit、Nano Banana Pro相比，JoyAI-Image-Edit能够忠实执行相机运动，合成最具诊断性的新视角，这些高保真的新视角有效地消除了复杂空间关系的歧义。

同样让模型「换个角度看世界」，别人换出来的画面或许能看，但JoyAI-Image-Edit换出来的画面，是真的对，这对于把模型投入真实生产和应用环境来说至关重要。

与此同时，它还全面兼容15类通用编辑能力——替换、删除、添加、风格迁移、细节精修、长文本渲染，样样拿得出手；尤其在空间推理、长文本渲染以及空间可控操作上表现尤为出色。

比如，输入一行指令就给小猫戴上皇冠。

或者将行人从图片中移走。

长文本渲染更是拿手。

顶尖的空间编辑×全面的通用编辑，这是真正的「文武双全」。

为什么是电商和具身？

一个模型的价值，不在跑分，而在用在哪。

JoyAI-Image-Edit最能发挥威力的两个战场，一个是电商，一个是具身智能——恰好都是京东的主场。

做电商的品牌客户，是对空间编辑最饥渴的用户。

一件商品拍进来，要换背景、换角度、换搭配、换场景、换光线。

过去这些活儿要么靠摄影师重拍，要么靠设计师通宵P图，要么靠AI生成一堆「塑料感」假图。

有了JoyAI-Image-Edit，一张主图可以自动衍生出几十种视角和场景，商品还是那个商品，形象保持一致，细节不穿帮，成本直接砍到脚踝。

对于服务着数百万商家的京东来说，这不是锦上添花，这是水和电。

具身智能的场景，则是空间理解最硬的刚需。

机器人要在真实世界里干活，第一件事就是「看懂」空间——哪是桌子、哪是椅子、杯子离我多远、我伸手能不能够到。

空间理解能力，就是机器人「理解世界」的核心底座。

而机器人行业的卡脖子问题是「数据」，如何能生产海量供机器人训练的数据，光靠本体采集、遥操是不够的，这时候JoyAI-Image-Edit能派上很大用场。

在具身智能的实测演示中，用户只需输入一句自然语言提示词（比如「机器人左手举起来」），并用画框框选目标区域，就能对指定物体的动作、姿态和旋转角度进行精细化操控.

在机器人做家务的实拍场景里，模型完整保留了背景环境、物体空间关系与物理合理性，生成了机器人抬手的全新姿态。

这已经不是「修图」，这是给机器人预演动作，也给机器人走进生活提供了大量优质的数据养料。

现在，京东正在将AI能力融入其「超级供应链」。

把空间智能的钥匙交给所有人

这一次，京东选择了Apache2.0协议开源，任何开发者、任何企业都可以自由地使用、修改、商用这个模型。

这件事的分量比想象中要重。

因为空间智能是通往AGI的「最后一公里」——一个AI如果连物体在空间中的位置关系都搞不清楚，谈何理解世界？

而把这样一个在空间一致性上达到世界一流水准的模型彻底开源，等于把一把关键钥匙交到了整个社区手里。

对电商从业者，它是成本杀手；对设计师，它是随身的三维助手；对机器人团队，它是视觉感知的现成底座；对学术研究者，它是可以站在上面继续往前走的巨人肩膀。

更重要的是，它让空间智能这件事，不再是少数几家闭源巨头的专利。

不追风口，只押自己最懂的场景

这两年大厂卷AI卷得飞起，参数比大小、榜单比名次、发布会比排场，每个人都想成为下一个OpenAI。

但京东的节奏一直挺「稳」——不凑热闹，不跟风，它的AI布局始终死死咬住一条主线：聚焦自己最懂、最具禀赋的实体场景，把AI扎到产业最深处。

过去一段时间，京东在AI上的动作密集得惊人：

开源基础大模型JoyAI-LLM Flash，用基于「纤维丛」理论的FiberPO强化学习方法，在19个权威基准上跻身一梯队；
京东云「龙虾」系列产品上线后，一周token调用量环比暴涨455%；
数字人JoyStreamer性能超越国际SOTA，覆盖电商直播、文旅讲解、新闻主播20多个场景；
JoyInside附身智能已经深度接入近百个家电家居品牌、40多个机器人与AI玩具品牌，接入后带动硬件对话轮次平均提升120%；

更猛的是，京东宣布要建全球规模最大、场景最全的具身智能数据采集中心，两年内攒下超过1000万小时真实场景数据，动员数十万人搞「人类史上最大的数据采集行动」。

看懂这份清单，你就看懂了京东的AI逻辑：零售、物流、工业、健康、具身——每一步都踩在自己的供应链和场景资源上。

别人在云端打参数战，京东在地上打场景战。

别人在比谁的模型更聪明，京东在比谁的AI更能干活、更能赚钱、更能落地。

而这一次开源的JoyAI-Image-Edit，正是这套打法的最新一块拼图。

京东的打法也给整个行业提了个醒：AI的竞争，终究不是参数的竞争，而是场景的竞争、落地的竞争、价值的竞争。

谁最懂自己的主场，谁就能把AI真正用起来。

零售、物流、工业、具身——京东把AI扎进了自己最肥沃的那几亩地，然后让种子在产业的土壤里发芽。

属于空间智能的时代，才刚刚开始。

注：文中部分输入图来源于Arena

Nano the 参数 Move 空间模型 Camera JoyAI-Image 图像 Banana 京东 Edit Image

⚠️

本网站信息内容及素材来源于网络采集或用户发布，如涉及侵权，请及时联系我们，发送链接至2697952338@QQ.COM，我们将第一时间进行核实与删除处理。

上一篇：南天信息新注册《南天激光打印机Linux驱动软件V1.0》项目的软件著作权

下一篇：NASA 开源 57 年前阿波罗 11 号登月源代码，历史性代码已进入公共领域

重磅开源！240亿参数力压Nano Banana 2

相关内容

热门资讯