新民晚报记者今天(6日)获悉,商汤科技正式开源空间智能模型日日新SenseNova-SI-1.3,其在空间测量、视角转换、综合推理等核心任务中展现出显著提升,另外对比之前的版本增强了回答简答题的能力。
在集成多项权威空间智能榜单的综合评测平台EASI上,SenseNova-SI-1.3综合性能超越Gemini-3-Pro,均分斩获EASI-8(八个权威空间智能榜单的混合评测)标准第一,在多个高难度空间任务(尤其是视角转换)中表现优异。
刁钻考题验证:精准突破空间智能核心难点
EASI-8包含一系列专门考察空间理解能力的高难度测试题,让Gemini-3-Pro等模型都频频踩坑。那么SenseNova-SI-1.3表现如何呢?
新民晚报记者看到,其中一道题是要求统计两张照片中建筑模型的总数量,核心难点是理解两张图的对应关系,以此避免遮挡漏数和重复多数。
图2视角下显现出图1中被遮挡的深灰色建筑,且部分模型在两图中重复出现。Gemini-3-Pro未完全去重,误数为6个;SenseNova-SI-1.3则给出 “4个”的准确答案
另一题中,题目给出两张书房局部照片,已知电脑位于房间北部,询问学生写作业区域的方位。需先理解两张图片属于同一空间,再通过视觉线索拼接场景。Gemini-3-Pro误判学习区在西侧;SenseNova-SI-1.3精准定位 “西北角”,符合空间逻辑。
再有一题考察“参照系的空间理解”题目要求以 “未戴眼镜男士的自身视角” 判断身旁戴眼镜男士的方位,模型很容易以“观察者视角”来判断方向。Gemini-3-Pro就误选了 “右边”;SenseNova-SI-1.3则能正确给出“左边”的正确答案。
空间智能是“极其独特”的多模态能力
一篇2025年发表于机器学习顶会ICML的论文揭示了一个有趣的发现:视角转换和所有传统多模态模型的能力的相关性均异常得低——这代表主流算法路径可能不是空间智能的形成的有效路径,同时也解释了为什么领先的多模态大模型在空间智能相关的任务上表现不佳。
研究发现视角转换任务与其他多模态任务的相关性(红框内)呈蓝色,即代表相关性较低
这篇论文还发现,空间智能似乎存在反尺度效应的现象:更大的模型并不能更好地解决空间智能任务。另外,在EASI的官方报告中也可以找到相似的描述,指出视角转换任务依然是最具挑战的基础能力之一。
研究还发现增大模型尺寸对提升视角转换任务效果不佳
学术界现有数据集多着重于目标识别与场景理解,模型往往停留在图像模式匹配阶段,难以形成稳定的空间理解能力。基于这一洞察,想要解决空间智能尤其是视角转换任务,简单扩充相关数据规模是不够的。
为了解决这一根本问题,商汤科技团队将视角转换看作从二维视觉信息迈向三维空间关系理解的关键桥梁,并将其拆解为递进的能力阶段,并构造大量且层次分明的训练数据,使模型建立完备的空间理解能力。
空间智能的核心——视角转换任务被拆解成了三个关键步骤:建立跨视角关联、理解视角移动、想象视角变换,并围绕着解决这三个基础能力构造大量训练数据
同时,在数据规模持续扩大的过程中,团队挖掘并重组多视角学术数据资源,将许多过去未被充分利用的标注转化为视角转换训练数据,“这种跨数据源的重组与再利用,使积累大量丰富而系统的空间理解数据成为可能。”
更有趣的是,团队在研究中似乎发现了一些智能涌现的先兆:一些看起来毫无关联的但也许细想之下有底层能力联系的任务可以协同发展。另外,团队也发现在视角转换任务上训练的模型也可以增强如心智重建、综合空间推理等能力。
空间智能的尺度效应:SenseNova-SI在视角转换任务上超越GPT-5
引领空间智能普惠生态
SenseNova-SI-1.3模型的升级发布背后,是商汤科技始终致力于打破技术壁垒,让顶尖空间智能技术惠及更多开发者与企业。
对科研人员而言,SenseNova-SI-1.3通过在空间智能上验证数据尺度效应提供了一个与现有基座模型完全兼容,但又长于空间智能的强力预训练模型和基线,可以直接在其之上设计创新算法或者续训,推动空间智能向人类水平迈进。
SenseNova-SI在具身任务上的探索了空间智能的重要性
对企业来说,可直接基于 SenseNova-SI-1.3快速落地应用,缩短研发周期、降低技术门槛;对普通用户而言,未来将有更多搭载先进空间智能的产品走进生活——从智能家电到自动驾驶,从工业机器人到教育设备,都将更懂 “空间逻辑”、更贴合实际需求。