说起人工智能的发展,我们总是被各种"AI超越人类"的新闻轰炸。Claude能写诗,GPT-4能看图说话,最新的模型甚至能理解视频内容。当这些看似无所不能的AI遇到真正需要空间思维和多步骤推理的复杂问题时,会发生什么呢?
就像一个看似聪明的学生在遇到真正需要动脑筋的数学应用题时突然卡壳一样,目前最先进的多模态语言模型,在面对复杂的空间推理任务也时常表现得相当糟糕。这并不是因为这些AI不够先进,而是因为真正的智能推理比我们想象的要复杂得多。
这个问题的核心在于,现有的AI测试基本上都像是在考"填空题"——给AI一张图片和一个问题,它只需要从图片中找到答案就行了。但真实世界的问题往往需要像侦探破案一样,把多个线索串联起来,制定一个详细的行动计划,还要考虑各种物理限制和空间约束。
正是基于这样的思考,来自苏黎世联邦理工学院的研究团队开发了一个名为MARBLE(MultimodAl Reasoning Benchmark for Language modEls)的测试套件。这个名字听起来很学术,但它的本质就是一个"AI智力测试的地狱模式"。这个基准包含两个极具挑战性的任务:M-Portal和M-Cube,它们要求模型在空间、视觉和物理约束下制定和理解多步骤计划。
研究人员想要找出现有AI模型在复杂推理方面的真实水平,就像给学霸出一套特别难的综合应用题,看看他们到底有多少真本事。
传送门的迷宫——M-Portal任务的复杂世界
M-Portal任务受到知名谜题游戏《传送门2》的启发,这是一个第一人称视角的谜题游戏。在这个游戏中,玩家需要通过放置两个传送门来克服障碍物和通过房间,玩家可以在这两个传送门之间瞬移。游戏的一个关键机制是动量守恒:当玩家以给定速度进入一个传送门时,他们会以相同的相对动量从第二个传送门出来。这使得创造性的穿越策略成为可能,比如通过将重力驱动的下落与传送门放置相结合来跳跃穿越大间隙或越过障碍物。
为了让这个任务更容易理解,我们可以把它想象成一个复杂的物理世界中的导航问题。假设你身处一个充满各种机关和障碍的房间,你需要通过巧妙地使用传送门技术来激活按钮、移动物体、操控激光束和牵引光束等各种设备,最终达到出口。这就像是解决一个多维度的连锁反应谜题,每一步操作都可能影响后续的行动路径。
M-Portal的数据收集过程非常严谨。研究团队让一位在《传送门2》方面经验丰富的人类标注员浏览《传送门2》社区测试室中评分最高的地图。他们专注于社区测试室,因为这些房间往往是独立的、定义明确的单房间问题。标注员选择了16个获得用户最高评分的高质量地图,这些地图形状紧凑,适合在几张截图内捕获。
整个M-Portal任务包含1024个问题,分为两种评估类型:计划正确性和填空任务,各占512个问题。在计划正确性任务中,模型需要判断给定的候选计划是否正确。这是一个二元分类任务,需要回答是/否问题。这个任务比填空任务更困难,因为模型必须仔细审查可能包含数十个步骤的冗长候选计划,这些计划涉及各种空间和物理约束以及依赖关系。
填空任务相对容易一些,模型接收到解决传送门地图的部分计划,其中几个步骤被掩盖。为了填充缺失的步骤,模型需要从五个错误或干扰选项中以正确顺序选择五个正确选项。即使这个任务对于朴素随机基线来说很困难,但对于能够解释多模态输入以及部分解决方案的模型来说,应该更容易识别正确的缺失步骤,特别是因为错误步骤也会以高度相似的选项形式出现在正确版本中。
立体拼图的挑战——M-Cube任务的三维世界
如果说M-Portal是一场空间导航的考验,那么M-Cube就是一次立体几何的终极挑战。这个任务受到Happy Cube拼图的启发,这是1986年由Dirk Laureyssens发明的机械拼图。在这个任务中,模型需要面对从5×5×5立方体面上取下的6个拼图块,每个拼图块都有其边缘上的凸起和凹槽图案特征。
要理解M-Cube任务的复杂性,我们可以把它想象成一个立体版的拼图游戏。你有六块形状奇特的拼图片,每一块都有复杂的凸起和凹槽图案。你的任务是将这些拼图片组装成一个完美的立方体,其中边缘无缝对齐,没有间隙或重叠。为了解决M-Cube任务,多模态语言模型需要为每个拼图片分配一个立方体面并确定正确的方向,也就是说,需要相应地旋转和翻转拼图片以与其他拼图片对齐。
对于每个问题,多模态语言模型必须考虑6!种可能的拼图片到面的分配(模去旋转对称性),对于每个拼图片,还有8种离散的旋转和翻转状态,这导致了候选解的组合爆炸。在这个巨大的搜索空间中,考虑到互锁凸起和凹槽图案施加的几何约束,只有极少数解是有效的。András等人报告说,大多数商业可用的立方体只有一个解(在旋转等价性下),这使得这是一个具有挑战性的推理问题。
虽然M-Cube任务受到Happy Cube拼图的启发,但研究团队合成生成了所有样本。数据生成管道从5×5×5立方体开始,将表面分解为6个互锁拼图片。每个拼图片可以视为5×5网格,其中中心3×3区域始终保留。对于位于边缘的其余单元格,研究团队随机将每个单元格分配给大5×5×5立方体的相邻面之一,以创建沿边界的凸起和凹槽图案。
为了控制难度级别,研究团队创建了两个子任务:CUBE和CUBE-easy,每个子任务包含1000个示例。CUBE-easy是CUBE的简化版本,简化体现在三个方面:首先,输入拼图片被表示为二维数组而不是渲染图像,以减少多模态语言模型的感知错误;其次,每个拼图都经过特别设计,使得解决方案不需要翻转任何拼图片;第三,在提示中提供了4个拼图片排列的部分解决方案,只留下2个缺失的拼图片需要放置。
令人震惊的测试结果——AI巨头们的集体"落榜"
当研究团队用MARBLE基准测试来评估12个最先进的多模态语言模型时,结果令人震惊。在M-Portal任务的计划正确性评估中,所有被调查的模型(包括多模态语言模型和纯文本语言模型)表现都非常糟糕,少数类F1分数约为6%,与随机基线相似。这就像是让一群成绩优异的学生去参加一场全新类型的考试,结果所有人的成绩都和随机猜测差不多。
在相对较容易的填空任务中,12个模型中有8个的表现超过了随机基线。特别是与随机基线相比,DeepSeek-R1、Claude-3.7-Sonnet、DeepSeek-R1-0528、Gemini-2.5-pro和GPT-o3的性能差距很大(≥5%),这些模型显著优于所有其他模型。然而,即使是表现最好的模型GPT-o3,也只能正确解决17.6%的问题。
更令人震惊的是M-Cube任务的结果。在更难的CUBE子任务中,所有先进的多模态语言模型都完全失败,获得了0%的准确率,尽管花费了超过10000个token来思考这些问题。这就像是给工程师们一个看似简单的立体拼图,结果所有人都无法完成。结果突出了CUBE中涉及的复杂多模态推理过程,其中模型必须通过长推理链进行验证和回溯迭代,以做出最终答案。
相比之下,在简化的CUBE-easy任务中,12个前沿模型中有6个能够表现得比随机猜测更好。其中,GPT-o3取得了72.0%准确率的卓越表现,大大优于第二好的模型GPT-o4-mini,后者只达到了16%。尽管经过简化,在CUBE-easy上花费的推理token数量仍然与CUBE相同或略高,这表明CUBE-easy对于大多数现有的多模态语言模型来说已经是一个具有挑战性的任务。
感知与推理的双重瓶颈
研究团队进一步分析发现,多模态语言模型的失败源于两个关键瓶颈:感知错误和推理局限。在感知方面,为了解决M-Cube拼图,第一步是理解视觉输入并检索相关信息,这是之后推理步骤的基础。研究团队设计了一个感知任务来测量多模态语言模型是否能够正确地从输入图像中提取信息:给定3D视角下的拼图块,要求模型将拼图块转换为5×5数组。
令人惊讶的是,研究团队发现所有模型在每个单元格上只能达到约70%的准确率。最好的感知性能来自Gemini-2.5-pro,准确率为76%,这意味着模型仍然可能偶尔出错。结果,所有模型在整个拼图片上的准确率都是0%。这些结果突出表明,即使是先进的多模态语言模型在这个看似简单的感知任务上也有困难,这为复杂场景(如CUBE)中的多模态推理构成了潜在瓶颈。
在推理方面,除了感知错误,M-Cube由于来自所有6个拼图片的可能排列和方向组合的巨大搜索空间,仍然是一个极具挑战性的问题。CUBE包含6!×8^6=188,743,680种可能的解决方案。相比之下,CUBE-easy只包含32种可能的解决方案,假设空间减少了500万倍。为了将推理挑战与感知限制分离,研究团队手动将视觉输入转换为相应的文本数组。他们比较了DeepSeek-R1在不同搜索空间配置下的性能。该模型在只有一个缺失拼图片的最简单设置中获得了57%的准确率。然而,随着搜索空间的扩大,性能急剧下降,当超过3个拼图片缺失时降至0%。
工具辅助的迭代改进尝试
面对如此困难的任务,研究团队还探索了一种更接近真实问题解决过程的方法:让模型使用解决方案验证器作为工具来收集反馈并迭代改进其响应。在每一轮中,模型提出候选解决方案并使用解决方案验证器进行评估。基于验证器的反馈,模型可以在下一轮中迭代地改进其响应,朝着更好的解决方案发展。
研究团队设计了两种类型的反馈:二元反馈,简单地以黑盒方式指示解决方案是否正确;详细反馈,不仅验证解决方案的正确性,还提供诊断信息,例如立方体的哪些边缘存在冲突。在CUBE-easy任务上,两种类型的反馈都显著提高了性能,详细反馈始终优于二元反馈,在5轮交互后将性能从10%提高到28%的准确率,这表明诊断信息的价值。
然而,在更具挑战性的CUBE数据集上,无论反馈类型如何,使用解决方案验证器工具的性能仍然保持在0%,这突出了当前多模态语言模型在解决更难的多模态推理问题方面的局限性。这种多步骤设置使得M-Cube内的迭代改进成为可能,通过解决方案验证器的反馈,紧密反映了人类如何处理现实世界问题——通过初步尝试、从环境中收集反馈并相应地改进策略。
至顶AI实验室洞见
这项研究揭示了一个令人深思的现象:当前被我们视为"智能"巅峰的AI模型,在面对需要真正空间推理和多步规划的任务时,表现得如此不尽人意。
MARBLE基准测试的价值不仅在于暴露了现有模型的局限性,更在于为未来的模型发展指明了方向。它告诉我们,真正的人工智能不仅需要在语言理解和生成方面表现出色,还需要具备在复杂空间环境中进行推理和规划的能力。
这项研究对普通人的生活可能会产生深远影响。当我们期待AI能够在机器人技术、自动驾驶、增强现实等需要空间理解和规划的领域发挥重要作用时,MARBLE的结果提醒我们,这条路还很长。不过,正如研究历史告诉我们的那样,越困难的挑战往往能推动技术的突破性进展。MARBLE基准测试的出现,很可能会激发新一代多模态模型的开发,这些模型将具备更强的空间推理和多步规划能力。
对于那些对AI技术发展感兴趣的读者,不妨思考这样一个问题:如果连目前最先进的AI模型都无法很好地处理空间推理任务,那么我们距离真正的通用人工智能还有多远?也许MARBLE的挑战正是推动我们走向更高层次AI的必要催化剂。
论文地址:
https://arxiv.org/pdf/2506.18701v1
END
本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。
Q&A
Q1:MARBLE基准测试是什么?为什么说它比现有的测试更有挑战性?
A:MARBLE是专门评估多模态语言模型空间推理和规划能力的基准测试,包含M-Portal和M-Cube两个任务。与现有测试不同,MARBLE不仅考察最终答案的正确性,更关注推理过程本身,要求模型在复杂的物理约束下制定多步骤计划,这比简单的问答或事实检索要困难得多。
Q2:为什么包括GPT-4在内的先进AI模型在MARBLE测试中表现如此糟糕?
A:主要原因有两个:感知瓶颈和推理局限。在感知方面,模型难以准确理解视觉输入中的结构化信息;在推理方面,面对巨大的搜索空间和复杂的多步骤规划需求,现有模型的推理能力严重不足。这表明当前的AI模型在真正的空间推理和规划方面还有很大的改进空间。
Q3:MARBLE测试的结果对AI技术发展有什么意义?
A:MARBLE的结果揭示了当前多模态AI模型的重要局限性,指出了未来研发的关键方向。它表明我们需要开发能够进行复杂空间推理和多步规划的新一代模型,这对于机器人技术、自动驾驶、增强现实等需要空间理解的应用领域至关重要。