AI点外卖哪家强，美团LongCat团队做了个全面评测_科学探索

AI点外卖哪家强，美团LongCat团队做了个全面评测

创始人

2025-10-20 10:48:06

0次

美团LongCat团队投稿发自凹非寺

量子位 | 公众号 QbitAI

美团LongCat团队发布了当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench（Versatile Interactive Tasks Benchmark）。

VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频生活场景为典型载体，构建了一个包含66个工具的交互式评测环境，并设计了跨场景综合任务。

例如，在旅行规划任务中，要求智能体通过推理、调用工具与用户交互，完整完成从购票到预订餐厅的全流程。

团队首次从深度推理、工具使用与用户交互三大维度对智能体任务进行量化拆解，从而实现对复杂问题的可控构建。

评测结果显示，即便是当前先进的推理模型，在主榜（复杂跨场景任务）上的成功率也仅约30%，揭示了现有智能体与真实生活应用需求之间的显著差距。

目前，VitaBench已全面开源，旨在为推动智能体在真实生活场景中的研发与落地提供重要基础设施。

研究背景：智能体评测与现实应用间存在巨大鸿沟

随着大语言模型在复杂推理与工具调用能力上的快速进步，基于LLM的智能体在真实生活场景中的应用日益广泛。然而，现有的智能体评测基准与现真实生活场景的应用需求之间依然存在显著差距，主要体现在以下几个方面：

工具生态简单化：早期的工具调用基准主要评估单次API调用的准确率（如：函数选择、参数填充），忽视了真实工具间的复杂依赖关系与组合调用需求；

信息密度不足：大多数相关基准仅关注单一类型信息，未能反映真实应用场景中多源信息（时空信息、常识信息、多场景服务数据、用户画像、用户历史交易数据等）的综合处理需求；

模型探索性受限：现有基准为了模拟真实生活场景，通常会将领域知识组装成冗长的Policy文档要求模型遵循，但是这种做法会限制模型在复杂环境中探索解空间的自主性。

同时，这种模式下，除了进行深度思考、有效环境交互的能力外，模型的长文本指令遵循能力也对执行结果有很大影响；

交互动态性缺失：用户作为环境的重要组成部分，大多数交互式Agent基准当前没有充分考虑到用户交互行为的多样性、用户需求的模糊性、多轮对话中的意图转移等真实复杂度；

通过对美团生活服务场景的深入分析，LongCat团队指出：真实世界的任务复杂性，源于三大维度的交织——

推理复杂性：需整合多源信息、自主推理规划任务完成路径；
工具复杂性：需在高度互联的工具图中理解领域特征，精确调用目标工具；
交互复杂性：需在多轮对话中主动澄清、追踪意图、适应多样化的用户行为并给予反馈。

为系统衡量这三重挑战下的模型表现，团队构建了VitaBench，一个依托“生活服务”场景、高度仿真的综合性Agent评测基准。

三维复杂度框架

通过将Agent在环境中与User、Tool交互建模为部分可观测马尔可夫决策过程（POMDP），VitaBench进一步将智能体任务复杂度拆解到各个方面进行量化并提升：

推理复杂度

量化智能体需要在部分可观测环境中整合信息量，具体通过以下指标衡量：

观测空间大小：环境整体信息量，信息越多，任务越难；
部分可观测度：智能体需要通过交互才能观测到的信息占整体信息的比例，比例越大，任务越难；
推理点数量：任务中需要处理的显性与隐性推理点数量，推理点越多，任务越难。

基于此，VitaBench构建了大规模真实环境数据库，其中单个任务可涉及5-20个服务提供商、最多超过100个候选产品，每个任务聚合多个真实用户需求，形成复杂的搜索与推理空间。

工具复杂度

如果将现实中的工具集建模为图，图中顶点代表工具，边代表工具间的依赖关系，那么工具复杂度可以通过以下指标衡量：

图大小与密度：反映解决领域问题需要涉及的工具数量与工具间依赖紧密程度，数值越高，模型掌握工具集的难度越大；
工具调用链路长度与子图覆盖率：解决任务需要完成的工具调用链路越长，所形成的子图占整张图的比例越大，任务的需求覆盖面就越广，任务就越难。

基于此，VitaBench从三个场景中提炼出66个真实工具并构建有向图，将领域规则编码到图结构中。其中工具通过Python函数实现，确保工具调用结果的稳定性和一致性。

交互复杂度

反映智能体在用户的动态多轮对话中的掌控能力，通过以下机制实现：

用户画像系统：基于真实平台数据脱敏构建的多样化用户画像，包含人口属性、饮食偏好、消费历史等信息；
行为属性建模：涵盖情绪表达（急躁、焦虑、冷漠等）、交互模式（细节导向、依赖型、逻辑型等）维度；
动态状态演化：用户状态、意图可能在交互过程中持续变化，要求智能体实时调整对话策略。

基于此，VitaBench为每个任务都配备了一个独特的用户角色，并通过UserSimulator扮演，逐步向Agent提出需求。

VitaBench基准构建

VitaBench通过两阶段流程构建：

阶段一：框架设计

工具定义：从三个领域中抽象核心功能，定义66个简化但功能完整的API工具；
依赖构建：基于工具间的依赖关系构建有向图，将领域规则编码到图结构中；
用户模拟：实现基于语言模型的用户模拟器，支持模糊化需求生成与个性化响应。

阶段二：任务创建

用户画像：基于真实平台数据合成差异化用户特征；
任务指令：融合多个真实用户请求，改写得到复合目标任务；
环境数据：结合真实数据合成扩展，再由人工核验以确保任务可完成；
评估标准：为每个任务制定独立且细粒度的评测标准。
VitaBench将各领域的规则统一编码到工具图结构中，避免了冗余的领域策略文档（Domain Policy Document）。智能体无需依赖预设规则，而是通过工具描述自行推理领域逻辑。这种设计使VitaBench能够灵活支持各种场景与工具集的自由组合。团队基于三个领域共构建了400项评测任务，其中包括：
单场景任务（300项）：聚焦于单一领域的复杂需求；
跨场景任务（100项）：考察智能体在多场景间的切换执行与信息整合能力。

每个任务均由多名专业标注人员和领域专家进行多次校验与复核，既确保任务具备足够的复杂度，又保证其可以顺利完成。数据统计结果如下表所示：

针对长轨迹评估的复杂性，VitaBench团队还提出了基于Rubric的滑动窗口评估器。

传统的基于数据库状态比对的评估方法难以捕捉商品推荐、行程规划等不改变最终状态的行为，无法对Agent完成任务的过程进行有效监督。VitaBench借鉴最新研究，将任务目标拆解为一组原子化评估准则（Rubric），实现了更全面、细粒度的行为覆盖。

评估器通过带重叠的滑动窗口扫描完整对话轨迹，在保持上下文连贯性的同时持续跟踪每个Rubric的状态，确保跨窗口一致。最终以严格的「全有或全无」标准判断任务完成与否。

这种细粒度的设计不仅显著提升了评估的可解释性，也为未来的强化学习工作提供了更密集、更可靠的反馈信号。

实验结果与分析

团队在VitaBench上评测了包括GPT-5、Claude-4.1-Opus、Gemini-2.5-Pro、Kimi-K2、GLM-4.5、LongCat-Flash等在内的20余款主流大模型。

实验设置：

实现基于FunctionCall的智能体架构，所有模型使用官方工具调用格式；
用户模拟器基于GPT-4.1实现，评估器基于Claude-3.7-Sonnet实现；
每个任务运行4次，温度均设置为0.0以促进稳定输出，计算Avg@4、Pass@4、Pass^4指标；
排行榜分为推理和非推理模型两类，对于支持在两种模式之间切换的混合思考模型，团队在两类中分别评估其开启思考和关闭思考的配置。

实验结果表明：

跨场景任务带来极大挑战：即使是测试中表现最佳的o3（high）模型，跨场景Avg@4成功率也仅为30.0%，远低于单场景任务的48.3%，表明当前模型在跨域工具协调与意图整合方面存在根本性短板。

多次尝试（探索）可以提升性能，但同样稳定性堪忧：尽管Pass@4（至少一次成功）可达60%，但Pass^4（四次全成功）接近0%，说明模型行为高度不稳定，难以满足生产环境可靠性要求。

“思考型”模型显著优于“非思考型”：启用链式推理（thinking）的模型普遍提升5–8个百分点，且交互轮次更少，说明深度规划对复杂任务至关重要。

复杂性消融实验

团队进一步通过消融实验，验证了VitaBench所提出的三大复杂性维度的有效性：

推理复杂性：任务所需推理点数量与成功率呈强负相关。在线旅行与跨场景任务平均包含9.7–10.3个推理点，搜索空间相比其他两个领域高出一个量级，成功率也更低。

工具复杂性：工具图的节点与边数量越多，任务越难。跨场景任务涉及66个工具、512条依赖边，是所有任务中最复杂的，成功率也最低。

交互复杂性：在「直接告诉Agent完整指令（无用户交互）」条件下，模型成功率显著提升；而引入真实用户模拟器（包含完整人物特征和行为属性）后，性能下降15–25个百分点，尤其对弱模型影响更大。

用户模拟器与评估器可靠性验证

为确保评测结果可信，团队对两个核心组件进行了严格验证：

用户模拟器：在信息保真度（9.48/10）与人格一致性（9.34/10）两项指标上均表现优异，能准确模拟不同用户行为和偏好，且不违背任务要求。

滑动窗口评估器：与人工标注相比，Cohen’s κ达0.828，显著优于无Rubric或无滑动窗口的基线方法。

典型失败案例分析

在对模型错误案例的系统分析中，团队归纳出代表性三大错误类别：推理相关错误（61.8%）、工具相关错误（21.1%）、交互相关错误（7.9%）。

分析发现，当前模型普遍存在以下具有代表性的失误模式：

模型在涉及时空推理与常识推理的任务中常常忽略细节，反映出其在多维信息整合上的局限。
即便具备正确的工具与条件，模型仍常因对自身能力、工具能力的不确定而提前放弃任务。
当工具调用失败或用户需求模糊时，模型往往重复无效操作，而非主动调整策略进行修复。

这些问题表明，当前通用型智能体在推理、策略调度与自我反思等方面仍存在显著提升空间，为后续研究提供了明确方向。

总结与展望

VitaBench不仅是一个评测基准，更是一套关于「Agentic Task Complexity」的理论框架。

它首次系统量化了推理、工具与交互三大维度对智能体性能的影响，并揭示了当前模型在真实生活场景中的能力边界。

团队的目标不仅仅是测量现有模型的智能边界，更是开启「AI下半场」，是实现通往实用智能体的最后一公里。

正如其名“Vita”（拉丁语“生命,生活”）所寓意的：智能的终极考场，不在实验室，而在生活本身。

VitaBench现已全面开源，欢迎访问项目官网获取最新信息。

项目主页：https://vitabench.github.io

论文链接：https://arxiv.org/abs/2509.26490

代码仓库：https://github.com/meituan-longcat/vitabench

数据集：https://huggingface.co/datasets/meituan-longcat/VitaBench

排行榜：

用户推理团队工具环境 LongCat 组成部分任务场景智能智能体模型

上一篇：有些时候真觉得，AI总结和“三分钟看电影”没啥区别。

下一篇：开源游戏引擎 O3DE 发布 25.10.0 版本：包含 100 余项更新

AI点外卖哪家强，美团LongCat团队做了个全面评测

相关内容

热门资讯