清华团队开源DISCOVERSE框架：用3D高斯渲染打通机器人仿真到现实的“最后一公里”！_科学探索

清华团队开源DISCOVERSE框架：用3D高斯渲染打通机器人仿真到现实的“最后一公里”！

创始人

2025-11-10 15:44:10

当前端到端机器人学习目前受制于三个突出问题：仿真环境还原真实场景的能力不足，造成“仿真到现实（Sim2Real）”迁移时性能打折；场景资产获取和系统配置投入高，技术难以铺开应用；训练数据收集耗时久，拖慢了整个学习进程。这其中，Sim2Real迁移性能下降是最核心的障碍。

追根溯源，问题出在现有仿真环境与真实世界的本质差异上——物体的外观质感、光线的照射效果、空间的几何结构，这些关键维度的偏差，让机器人在虚拟环境里练熟的操作策略，到了真实场景中就“水土不服”，无法灵活应对实际情况。

为解决这个问题，研究人员开发过不少仿真框架，但都存在明显短板。目前还没有一套框架能同时满足三个要求：视觉上高度还原真实、物理交互精准无误、支持高效并行扩展。具体来说，有的框架能做出视觉精美的虚拟场景，却保证不了物理层面和现实一致；有的框架动力学模拟很准，外观逼真度又跟不上，没法支撑机器人的视觉学习需求。

DISCOVERSE 整合了真实世界捕捉数据、3D AIGC 以及任何现有的 3D 资源，支持 3DGS (.ply)、网格 (.obj/.stl) 和 MJCF 物理模型 (.xml) 格式，使其能够用作交互式场景节点（物体和机器人）或背景节点。

在此研究背景下，清华大学联合浙江大学、华中科技大学等机构推出的 DISCOVERSE 开源仿真框架，首次把3D Gaussian Splatting（3DGS）渲染器、MuJoCo物理引擎和控制接口整合到统一架构里，形成了一套可扩展、模块化的开源Real2Sim2Real机器人学习框架。

▍为什么Sim2Real鸿沟这么难跨？

要理解DISCOVERSE的价值，得先搞清楚传统机器人仿真的“三大痛点”。现在主流的机器人学习大多靠“端到端训练”，也就是让机器人从传感器数据里直接学策略，这就对仿真器的“真实性”和“效率”提出了极高要求。但过去的方案，始终没把这两件事做好。

首先是视觉保真度太差。传统仿真器里的场景，要么是用手工画的纹理贴图，要么是简化的光照效果，比如把物体表面都当成“均匀反光”的理想状态。可真实世界里，桌子可能有木纹反光，杯子可能有金属光泽，灯光角度不同还会产生复杂阴影——这些细节的缺失，会让机器人在仿真里“看惯了假场景”，到真实环境里就“认不出东西”。

其次是几何重建有缺陷。有些方案尝试用多视图立体匹配（MVS）或RGB-D融合技术，把真实场景扫成3D模型放进仿真，但这类技术最怕两种情况：一是非朗伯表面（比如镜子、金属），二是精细结构（比如电线、薄纸片），一遇到这些就会出现“表面塌陷”，扫出来的模型要么模糊要么缺块，根本没法用。

最后是兼容性和效率不可兼得。像Omniverse Issac Lab这种高性能仿真器，虽然能实时渲染高质量画面，但配置过程极其复杂，而且不支持真实场景扫描的资产；而支持真实资产的方案，又大多渲染速度慢，跑一次训练要等好几天，根本没法大规模用。

DISCOVERSE与其他端到端机器人学习支持型仿真器的对比

之前也有团队尝试用3D高斯 splatting做仿真，比如SplatSim，但这些方案要么没法恢复精确的几何结构，要么在复杂场景里容易出错，比如处理野外场景或无纹理物体时就“歇菜”，始终成不了通用工具。

▍DISCOVERSE的破局思路：把“真实”搬进仿真

DISCOVERSE的核心想法很直接：既然仿真和现实有差距，那就在“从真实到仿真”（Real2Sim）这个环节下功夫，让仿真环境不仅“看起来像”，更“用起来像”真实世界。团队用了三层创新，搭建起一套完整的解决方案。

第一层：超写实Real2Sim流水线，连光影都和现实一样

要让仿真“复刻”现实，首先得把真实场景和物体“数字化”得足够精细。DISCOVERSE设计了一套分层级的Real2Sim流水线，分别处理“场景背景”和“交互物体”，避免了传统方案“一刀切”的粗糙。

DISCOVERSE 系统的操作流程：团队采用基于图像块的快速稀疏体绘制技术，实现高保真度的神经渲染，同时集成MuJoCo物理仿真器，以支持各类机器人相关功能。

对于场景级背景，比如整个房间，团队用了“激光扫描+3D高斯 splatting”的组合拳。传统3D高斯重建只靠相机照片，容易出现模糊或“漂浮”的伪影，而DISCOVERSE加入了激光扫描的几何数据做约束，相当于给重建加了“校准尺”，让场景的墙壁、地板这些大结构更精准。同时，为了模拟真实的光照，团队用了DiffusionLight模型——只要给一张场景照片，就能生成HDR环境图，不仅能还原阳光、灯光的强度，还能模拟不同时间的光影变化，比如下午的斜射光和晚上的暖光，让仿真里的物体影子和真实世界完全对应。

DISCOVERSE 虚实生成流水线：我们将三维高斯球面（3DGS）用作通用视觉表征，同时集成激光扫描、最先进的生成式模型以及基于物理的重新打光技术，以此提升重建辐射场的几何精度与外观保真度。

对于交互物体，比如要抓取的杯子、奇异果，团队则根据物体特性“对症下药”。如果是表面均匀反光的物体（比如塑料杯），就用Artec Leo激光扫描仪，把物体放在转台上多角度扫描，连纹理的细小划痕都能扫出来；如果是金属这种非朗伯表面，或者像电线这种精细结构，就用3D生成模型CLAY——只要给一张物体照片，CLAY就能生成高质量的3D网格，解决了扫描技术“扫不了”的难题。

最关键的是，团队还解决了“资产格式不兼容”的问题。传统仿真用的是网格模型（.obj/.stl），而3D高斯用的是.ply格式，两者没法直接互通。DISCOVERSE设计了一套“Mesh-Gaussian转换”技术：把网格转成3D高斯时，每个网格面对应一个高斯点，高斯的位置和大小都根据网格几何计算，还加入了深度和透明度约束，确保转换后既保留物理交互所需的精度，又能发挥3D高斯的渲染优势；如果需要把3D高斯转成网格，就先渲染多视角深度图，再用TSDF融合技术生成网格，完美打通了两种格式的壁垒。

这套流水线下来，仿真环境里的场景和物体，从几何结构到光影效果，都和真实世界高度一致。比如仿真里的笔记本电脑，不仅外壳的纹理和真实的一样，打开盖子时的光影变化，甚至键盘缝隙的阴影，都和现实毫无差别——这就从源头减少了机器人“认不出”或“用不惯”的问题。

第二层：三大引擎无缝整合，速度比主流方案快3倍

光有真实感还不够，仿真速度慢了也没法用——大规模机器人训练需要成千上万次试错，要是渲染一帧要等几秒，训练一次可能要几个月。DISCOVERSE在速度上做了关键优化，把“渲染、物理、机器人接口”三大引擎无缝整合，实现了“保真度不降，速度翻倍”。

在渲染引擎上，DISCOVERSE用了3D高斯 splatting的“瓦片式光栅化”技术，还做了CUDA优化。简单说，就是把画面分成小块并行渲染，再通过GPU加速，让渲染速度大幅提升。

团队测试过，在搭载Intel Xeon CPU和NVIDIA 6000 Ada GPU的台式机上，5个摄像头同时输出RGB-D帧（640×480分辨率），能达到650 FPS——这是什么概念？比同类主流方案Issac Lab（ORBIT）快了3倍，甚至在笔记本电脑上（AMD R7-5800H CPU + RTX 3060 GPU），也能跑到240 FPS，完全满足大规模并行训练的需求。

物理引擎方面，团队没有从头造轮子，而是集成了开源的MuJoCo引擎。MuJoCo在机器人领域口碑很好，能精准模拟物体的接触、摩擦、软约束等物理效应，比如机器人抓取奇异果时，既能模拟果皮的轻微变形，又能准确计算需要的握力，不会出现“一抓就碎”或“抓不住”的情况。同时，DISCOVERSE还支持力控、PD控制等多种机器人控制模式，不管是机械臂的关节运动，还是无人机的飞行姿态，都能和真实机器人的物理特性对齐。

为了让仿真和真实机器人“无缝衔接”，DISCOVERSE还原生支持ROS2（机器人操作系统2）。ROS2是行业通用的机器人开发框架，DISCOVERSE为它提供了全套API，比如可以直接控制机器人的关节角度，或者在笛卡尔坐标系下设定末端执行器的位置——这意味着，在仿真里调好的控制逻辑，不用改代码就能直接用到真实机器人上，大大降低了部署成本。

第三层：全生态兼容，不用再为“适配”头疼

很多仿真器之所以用起来麻烦，是因为“兼容性差”——换个机器人模型要改代码，换个传感器要重新配置，收集的数据还没法直接用在其他算法上。DISCOVERSE则把“兼容性”做到了极致，覆盖了机器人学习的全流程需求。

在资产兼容上，它支持几乎所有主流格式：3D高斯的.ply文件、网格模型的.obj/.stl文件、物理仿真用的MJCF（.xml）文件，甚至还能直接对接ShapeNet、PartNet、Objaverse这些公共3D数据集。不管是自己扫描的真实物体，还是网上下载的模型，都能直接放进仿真里用，不用再做格式转换。

机器人模型方面，DISCOVERSE支持的种类非常多：从单机械臂（比如AIRBOT Play），到双臂人形移动操作器（AIRBOT MMK2），再到轮式移动机器人和无人机，甚至还能自己用URDF格式组装机器人——比如给机械臂加个新的夹具，只要写好URDF文件，就能在仿真里直接测试效果。

传感器支持也很全面。渲染类传感器里，除了常见的RGB相机、深度相机，还有LiDAR（激光雷达），团队还专门做了BVH加速，让LiDAR仿真能跑到100 FPS以上；物理类传感器则包括力反馈传感器、IMU（惯性测量单元）、触觉传感器，比如集成了Tacchi光学触觉传感器，能模拟机器人抓取物体时的触觉反馈，比如区分抓取的是硬塑料还是软布料。

在算法兼容上，DISCOVERSE支持ACT、Diffusion Policy等主流模仿学习算法，还内置了数据增强工具，比如随机视频叠加、HSV空间调整、gamma校正，甚至能用GPT-4V生成文本提示，结合ControlNet做更灵活的数据增强——这意味着，研究人员不用再为“算法适配仿真器”花时间，能直接专注于算法本身的优化。

▍实测数据：零样本迁移成功率碾压同类方案

团队在三个真实世界的操作任务上做了测试，对比了DISCOVERSE和MuJoCo、RoboTwin、SplatSim这三款主流仿真器的表现，结果可以用“碾压”来形容。

测试的三个任务都是机器人操作里的经典场景：合笔记本电脑（Close-Laptop）、把鼠标推到鼠标垫上（Push-Mouse）、捡奇异果（Pick-Up-Kiwifruit）——这三个任务都有“接触密集”的特点，对物理交互精度和视觉识别要求很高，正好能检验Sim2Real的效果。

团队采用了两种主流的模仿学习算法：ACT和Diffusion Policy。对于每个任务，在每个仿真器里都生成100条（ACT）或2000条（Diffusion Policy）演示数据，然后在真实的AIRBOT Play机械臂上测试零样本迁移的成功率，每个任务跑50次取平均值。

基于 DISCOVERSE 及其他仿真器训练的 ACT 模型零样本虚实迁移成功率

先看无数据增强的情况。用ACT算法时，DISCOVERSE的平均成功率是55%，而第二名SplatSim只有44%，领先了11个百分点；用Diffusion Policy时，DISCOVERSE平均56%，同样比SplatSim的45.3%高11个百分点。要知道，SplatSim也是基于3D高斯的仿真器，DISCOVERSE能领先这么多，关键就在于它的几何精度和光照模拟更接近真实。

基于 DISCOVERSE 及其他仿真器训练的扩散策略模型零样本虚实迁移成功率

加入图像增强后，DISCOVERSE的优势更明显。用ACT时，它的平均成功率飙升到86.5%，比SplatSim的68%高了18.5个百分点；用Diffusion Policy时，DISCOVERSE是86%，SplatSim是74.6%，领先11.4个百分点。尤其是“捡奇异果”这个难度最高的任务——奇异果表面有绒毛，颜色不均匀，还容易被捏坏，传统仿真器很难模拟。DISCOVERSE在无增强时成功率48%，是SplatSim（26%）的1.8倍；增强后更是达到76%，几乎能和真实世界演示（Real2Real，100%）媲美。

除了成功率，DISCOVERSE在数据收集效率上也有巨大优势。收集100条演示数据，真实世界里需要一个人手动操作机械臂，花146分钟才能完成；而在DISCOVERSE里，使用运动规划器和游戏手柄自动生成，只要1.5分钟——效率提升了100倍。这意味着，以前要几天才能收集完的训练数据，现在1小时就能搞定，大大加快了算法迭代速度。

▍结语与未来

DISCOVERSE的能力远不止“机械臂操作”，它是一个通用的机器人仿真框架，能支持多种复杂任务。目前研究人员已在机器人、无人机、无人驾驶传感器等异构机器人本体上进行验证测试。

此外DISCOVERSE已在官网上放出了代码和演示视频，还提供了完整的Python API，提供给个人开发者和企业。或许用不了多久，我们就能看到：在DISCOVERSE里训练好的机器人，进入真实场景就能干活，不用反复调试，不用大量实机数据，真正实现“仿真即现实”。对于机器人行业来说，这无疑是一个重要的里程碑。

论文链接：https://www.arxiv.org/pdf/2507.21981

项目地址：https://air-discoverse.github.io/

现实机器人方案物体高斯 Sim Real 仿真框架场景网格模型仿真器

上一篇：奥尔特曼：OpenAI计划直接出售计算能力，剑指“AI云”

下一篇：原创金灿荣：大陆的耐心是有限的，留给台湾的时间不多了

清华团队开源DISCOVERSE框架：用3D高斯渲染打通机器人仿真到现实的“最后一公里”！

相关内容

热门资讯