当前端到端机器人学习目前受制于三个突出问题:仿真环境还原真实场景的能力不足,造成“仿真到现实(Sim2Real)”迁移时性能打折;场景资产获取和系统配置投入高,技术难以铺开应用;训练数据收集耗时久,拖慢了整个学习进程。这其中,Sim2Real迁移性能下降是最核心的障碍。
追根溯源,问题出在现有仿真环境与真实世界的本质差异上——物体的外观质感、光线的照射效果、空间的几何结构,这些关键维度的偏差,让机器人在虚拟环境里练熟的操作策略,到了真实场景中就“水土不服”,无法灵活应对实际情况。
为解决这个问题,研究人员开发过不少仿真框架,但都存在明显短板。目前还没有一套框架能同时满足三个要求:视觉上高度还原真实、物理交互精准无误、支持高效并行扩展。具体来说,有的框架能做出视觉精美的虚拟场景,却保证不了物理层面和现实一致;有的框架动力学模拟很准,外观逼真度又跟不上,没法支撑机器人的视觉学习需求。
DISCOVERSE 整合了真实世界捕捉数据、3D AIGC 以及任何现有的 3D 资源,支持 3DGS (.ply)、网格 (.obj/.stl) 和 MJCF 物理模型 (.xml) 格式,使其能够用作交互式场景节点(物体和机器人)或背景节点。
在此研究背景下,清华大学联合浙江大学、华中科技大学等机构推出的 DISCOVERSE 开源仿真框架,首次把3D Gaussian Splatting(3DGS)渲染器、MuJoCo物理引擎和控制接口整合到统一架构里,形成了一套可扩展、模块化的开源Real2Sim2Real机器人学习框架。
▍为什么Sim2Real鸿沟这么难跨?
要理解DISCOVERSE的价值,得先搞清楚传统机器人仿真的“三大痛点”。现在主流的机器人学习大多靠“端到端训练”,也就是让机器人从传感器数据里直接学策略,这就对仿真器的“真实性”和“效率”提出了极高要求。但过去的方案,始终没把这两件事做好。
首先是视觉保真度太差。传统仿真器里的场景,要么是用手工画的纹理贴图,要么是简化的光照效果,比如把物体表面都当成“均匀反光”的理想状态。可真实世界里,桌子可能有木纹反光,杯子可能有金属光泽,灯光角度不同还会产生复杂阴影——这些细节的缺失,会让机器人在仿真里“看惯了假场景”,到真实环境里就“认不出东西”。
其次是几何重建有缺陷。有些方案尝试用多视图立体匹配(MVS)或RGB-D融合技术,把真实场景扫成3D模型放进仿真,但这类技术最怕两种情况:一是非朗伯表面(比如镜子、金属),二是精细结构(比如电线、薄纸片),一遇到这些就会出现“表面塌陷”,扫出来的模型要么模糊要么缺块,根本没法用。
最后是兼容性和效率不可兼得。像Omniverse Issac Lab这种高性能仿真器,虽然能实时渲染高质量画面,但配置过程极其复杂,而且不支持真实场景扫描的资产;而支持真实资产的方案,又大多渲染速度慢,跑一次训练要等好几天,根本没法大规模用。
DISCOVERSE与其他端到端机器人学习支持型仿真器的对比
之前也有团队尝试用3D高斯 splatting做仿真,比如SplatSim,但这些方案要么没法恢复精确的几何结构,要么在复杂场景里容易出错,比如处理野外场景或无纹理物体时就“歇菜”,始终成不了通用工具。
▍DISCOVERSE的破局思路:把“真实”搬进仿真
DISCOVERSE的核心想法很直接:既然仿真和现实有差距,那就在“从真实到仿真”(Real2Sim)这个环节下功夫,让仿真环境不仅“看起来像”,更“用起来像”真实世界。团队用了三层创新,搭建起一套完整的解决方案。
第一层:超写实Real2Sim流水线,连光影都和现实一样
要让仿真“复刻”现实,首先得把真实场景和物体“数字化”得足够精细。DISCOVERSE设计了一套分层级的Real2Sim流水线,分别处理“场景背景”和“交互物体”,避免了传统方案“一刀切”的粗糙。
DISCOVERSE 系统的操作流程:团队采用基于图像块的快速稀疏体绘制技术,实现高保真度的神经渲染,同时集成MuJoCo物理仿真器,以支持各类机器人相关功能。
对于场景级背景,比如整个房间,团队用了“激光扫描+3D高斯 splatting”的组合拳。传统3D高斯重建只靠相机照片,容易出现模糊或“漂浮”的伪影,而DISCOVERSE加入了激光扫描的几何数据做约束,相当于给重建加了“校准尺”,让场景的墙壁、地板这些大结构更精准。同时,为了模拟真实的光照,团队用了DiffusionLight模型——只要给一张场景照片,就能生成HDR环境图,不仅能还原阳光、灯光的强度,还能模拟不同时间的光影变化,比如下午的斜射光和晚上的暖光,让仿真里的物体影子和真实世界完全对应。
DISCOVERSE 虚实生成流水线:我们将三维高斯球面(3DGS)用作通用视觉表征,同时集成激光扫描、最先进的生成式模型以及基于物理的重新打光技术,以此提升重建辐射场的几何精度与外观保真度。
对于交互物体,比如要抓取的杯子、奇异果,团队则根据物体特性“对症下药”。如果是表面均匀反光的物体(比如塑料杯),就用Artec Leo激光扫描仪,把物体放在转台上多角度扫描,连纹理的细小划痕都能扫出来;如果是金属这种非朗伯表面,或者像电线这种精细结构,就用3D生成模型CLAY——只要给一张物体照片,CLAY就能生成高质量的3D网格,解决了扫描技术“扫不了”的难题。
最关键的是,团队还解决了“资产格式不兼容”的问题。传统仿真用的是网格模型(.obj/.stl),而3D高斯用的是.ply格式,两者没法直接互通。DISCOVERSE设计了一套“Mesh-Gaussian转换”技术:把网格转成3D高斯时,每个网格面对应一个高斯点,高斯的位置和大小都根据网格几何计算,还加入了深度和透明度约束,确保转换后既保留物理交互所需的精度,又能发挥3D高斯的渲染优势;如果需要把3D高斯转成网格,就先渲染多视角深度图,再用TSDF融合技术生成网格,完美打通了两种格式的壁垒。
这套流水线下来,仿真环境里的场景和物体,从几何结构到光影效果,都和真实世界高度一致。比如仿真里的笔记本电脑,不仅外壳的纹理和真实的一样,打开盖子时的光影变化,甚至键盘缝隙的阴影,都和现实毫无差别——这就从源头减少了机器人“认不出”或“用不惯”的问题。
第二层:三大引擎无缝整合,速度比主流方案快3倍
光有真实感还不够,仿真速度慢了也没法用——大规模机器人训练需要成千上万次试错,要是渲染一帧要等几秒,训练一次可能要几个月。DISCOVERSE在速度上做了关键优化,把“渲染、物理、机器人接口”三大引擎无缝整合,实现了“保真度不降,速度翻倍”。
在渲染引擎上,DISCOVERSE用了3D高斯 splatting的“瓦片式光栅化”技术,还做了CUDA优化。简单说,就是把画面分成小块并行渲染,再通过GPU加速,让渲染速度大幅提升。
团队测试过,在搭载Intel Xeon CPU和NVIDIA 6000 Ada GPU的台式机上,5个摄像头同时输出RGB-D帧(640×480分辨率),能达到650 FPS——这是什么概念?比同类主流方案Issac Lab(ORBIT)快了3倍,甚至在笔记本电脑上(AMD R7-5800H CPU + RTX 3060 GPU),也能跑到240 FPS,完全满足大规模并行训练的需求。
物理引擎方面,团队没有从头造轮子,而是集成了开源的MuJoCo引擎。MuJoCo在机器人领域口碑很好,能精准模拟物体的接触、摩擦、软约束等物理效应,比如机器人抓取奇异果时,既能模拟果皮的轻微变形,又能准确计算需要的握力,不会出现“一抓就碎”或“抓不住”的情况。同时,DISCOVERSE还支持力控、PD控制等多种机器人控制模式,不管是机械臂的关节运动,还是无人机的飞行姿态,都能和真实机器人的物理特性对齐。
为了让仿真和真实机器人“无缝衔接”,DISCOVERSE还原生支持ROS2(机器人操作系统2)。ROS2是行业通用的机器人开发框架,DISCOVERSE为它提供了全套API,比如可以直接控制机器人的关节角度,或者在笛卡尔坐标系下设定末端执行器的位置——这意味着,在仿真里调好的控制逻辑,不用改代码就能直接用到真实机器人上,大大降低了部署成本。
第三层:全生态兼容,不用再为“适配”头疼
很多仿真器之所以用起来麻烦,是因为“兼容性差”——换个机器人模型要改代码,换个传感器要重新配置,收集的数据还没法直接用在其他算法上。DISCOVERSE则把“兼容性”做到了极致,覆盖了机器人学习的全流程需求。
在资产兼容上,它支持几乎所有主流格式:3D高斯的.ply文件、网格模型的.obj/.stl文件、物理仿真用的MJCF(.xml)文件,甚至还能直接对接ShapeNet、PartNet、Objaverse这些公共3D数据集。不管是自己扫描的真实物体,还是网上下载的模型,都能直接放进仿真里用,不用再做格式转换。
机器人模型方面,DISCOVERSE支持的种类非常多:从单机械臂(比如AIRBOT Play),到双臂人形移动操作器(AIRBOT MMK2),再到轮式移动机器人和无人机,甚至还能自己用URDF格式组装机器人——比如给机械臂加个新的夹具,只要写好URDF文件,就能在仿真里直接测试效果。
传感器支持也很全面。渲染类传感器里,除了常见的RGB相机、深度相机,还有LiDAR(激光雷达),团队还专门做了BVH加速,让LiDAR仿真能跑到100 FPS以上;物理类传感器则包括力反馈传感器、IMU(惯性测量单元)、触觉传感器,比如集成了Tacchi光学触觉传感器,能模拟机器人抓取物体时的触觉反馈,比如区分抓取的是硬塑料还是软布料。
在算法兼容上,DISCOVERSE支持ACT、Diffusion Policy等主流模仿学习算法,还内置了数据增强工具,比如随机视频叠加、HSV空间调整、gamma校正,甚至能用GPT-4V生成文本提示,结合ControlNet做更灵活的数据增强——这意味着,研究人员不用再为“算法适配仿真器”花时间,能直接专注于算法本身的优化。
▍实测数据:零样本迁移成功率碾压同类方案
团队在三个真实世界的操作任务上做了测试,对比了DISCOVERSE和MuJoCo、RoboTwin、SplatSim这三款主流仿真器的表现,结果可以用“碾压”来形容。
测试的三个任务都是机器人操作里的经典场景:合笔记本电脑(Close-Laptop)、把鼠标推到鼠标垫上(Push-Mouse)、捡奇异果(Pick-Up-Kiwifruit)——这三个任务都有“接触密集”的特点,对物理交互精度和视觉识别要求很高,正好能检验Sim2Real的效果。
团队采用了两种主流的模仿学习算法:ACT和Diffusion Policy。对于每个任务,在每个仿真器里都生成100条(ACT)或2000条(Diffusion Policy)演示数据,然后在真实的AIRBOT Play机械臂上测试零样本迁移的成功率,每个任务跑50次取平均值。
基于 DISCOVERSE 及其他仿真器训练的 ACT 模型零样本虚实迁移成功率
先看无数据增强的情况。用ACT算法时,DISCOVERSE的平均成功率是55%,而第二名SplatSim只有44%,领先了11个百分点;用Diffusion Policy时,DISCOVERSE平均56%,同样比SplatSim的45.3%高11个百分点。要知道,SplatSim也是基于3D高斯的仿真器,DISCOVERSE能领先这么多,关键就在于它的几何精度和光照模拟更接近真实。
基于 DISCOVERSE 及其他仿真器训练的扩散策略模型零样本虚实迁移成功率
加入图像增强后,DISCOVERSE的优势更明显。用ACT时,它的平均成功率飙升到86.5%,比SplatSim的68%高了18.5个百分点;用Diffusion Policy时,DISCOVERSE是86%,SplatSim是74.6%,领先11.4个百分点。尤其是“捡奇异果”这个难度最高的任务——奇异果表面有绒毛,颜色不均匀,还容易被捏坏,传统仿真器很难模拟。DISCOVERSE在无增强时成功率48%,是SplatSim(26%)的1.8倍;增强后更是达到76%,几乎能和真实世界演示(Real2Real,100%)媲美。
除了成功率,DISCOVERSE在数据收集效率上也有巨大优势。收集100条演示数据,真实世界里需要一个人手动操作机械臂,花146分钟才能完成;而在DISCOVERSE里,使用运动规划器和游戏手柄自动生成,只要1.5分钟——效率提升了100倍。这意味着,以前要几天才能收集完的训练数据,现在1小时就能搞定,大大加快了算法迭代速度。
▍结语与未来
DISCOVERSE的能力远不止“机械臂操作”,它是一个通用的机器人仿真框架,能支持多种复杂任务。目前研究人员已在机器人、无人机、无人驾驶传感器等异构机器人本体上进行验证测试。
此外DISCOVERSE已在官网上放出了代码和演示视频,还提供了完整的Python API,提供给个人开发者和企业。或许用不了多久,我们就能看到:在DISCOVERSE里训练好的机器人,进入真实场景就能干活,不用反复调试,不用大量实机数据,真正实现“仿真即现实”。对于机器人行业来说,这无疑是一个重要的里程碑。
论文链接:https://www.arxiv.org/pdf/2507.21981
项目地址:https://air-discoverse.github.io/