AI看图一本正经胡说八道？「一拉一推」让模型看得全又准

AI看图一本正经胡说八道？「一拉一推」让模型看得全又准｜微软x清华

创始人

2026-02-08 17:17:30

BiPS团队投稿

量子位 | 公众号 QbitAI

随着视觉-语言模型（VLM）推理能力不断增强，一个隐蔽的问题逐渐浮现：

很多错误不是推理没做好，而是“看错了”。

现有方法通常在推理阶段“指路”——例如生成视觉提示或调用外部工具，以临时对齐证据。这类策略虽有效，却面临明显局限：视觉线索形式受限、高度依赖具体任务，且推理开销大。更重要的是，它引出一个根本性问题：

如果模型始终需要外部提醒才知道“看哪儿”，它是否真的理解了视觉世界？

为此，微软亚洲研究院与清华大学提出BiPS（Bi-directional Perceptual Shaping），从源头重塑模型的“看图方式”。

BiPS不在推理时临时提示关注区域，而是在训练阶段就教会模型：面对特定问题，哪些视觉细节必须关注，哪些可以忽略。通过系统性地对齐问题与视觉证据，BiPS促使模型内化一种核心能力——带着问题去看图。因此，在推理时无需任何额外提示，模型也能自动聚焦于真正决定答案的关键区域与细节。

实验表明，这种“看哪儿”的能力具有跨任务迁移性，为构建更可靠、通用的视觉理解系统开辟了新路径。

视线错位：VLM的“看”与“想”为何脱节？

人类的视觉是目标驱动的：问趋势就追曲线，问数值就盯刻度，问关系就比位置。但当前VLM的“看”仍停留在打标签阶段，缺乏对关键证据的精准定位能力。它知道图里有什么，却不知道该看哪里。

为解决这一“视线错位”，学界常采用视觉证据引导——通过框选、掩码或线索提示，为模型的“视线”装上“准星”。然而，这种引导式感知存在三重局限：

其一，世界不是矩形的。图表中的折线拐点、几何题中的交叠多边形、医学影像中的弥散病灶……这些关键线索往往是不规则且弥散的，难以被标准框或掩码完整覆盖。裁大引入噪声，裁小丢失细节，模型“看”到了区域，却依然看错了证据。

其二，聚焦能力无法迁移。当前提示方法多为特定任务定制，依赖特定数据分布或标注规则。模型的感知能力被绑死在任务专属的视觉表示上，难以泛化。换一个任务，就得重教它“怎么看”。

其三，感知被推迟到推理之后。多数方案将视觉聚焦视为推理链中的中间补救步骤，不仅拖慢效率，更让错误在后续推理中滚雪球式放大。

核心挑战由此浮现：如何让模型学会“带着问题去看图”？

从“推理时补救”到“训练时内化”：BiPS的核心转向

如果问题根源不在“推理不够聪明”，而在“从第一眼就看错了图”，是否该换个思路？

这正是BiPS（Bi-directional Perceptual Shaping）的核心革命。

它不做边界框、不打掩码、不调工具，而是：

把推理阶段依赖的视觉提示，提前转化为指导模型“该往哪儿看”的训练信号。让模型学会本能聚焦关键证据。

一拉一推：让模型既“看全”，又“看准”

BiPS的核心在于一套方向相反、粒度互补的双重感知塑形机制：

先把模型的视线“拉”回到所有相关证据，再“推”它看向真正关键的细节。

“拉”：看少，但看全

真实问答常依赖分散却环环相扣的视觉证据链——如折线走势、图例颜色、坐标刻度与子图标题的组合。

为此，BiPS构建Evidence-Preserving View（证据保留视图）：系统性剔除干扰，仅保留回答必需的视觉元素，宁可粒度粗，也不遗漏关键。

模型需基于这种“信息更少但结构完整”的视图，输出与原始图像一致的答案。

这一过程将模型从噪声与偏见中拉回，使其回答锚定于完整的证据链。

“推”：看对关键细节

“看全”只是起点。若模型仅模糊定位相关区域，仍可能依赖语言先验或统计偏见作答。

BiPS引入Evidence-Ablated View（证据消融视图）：精准移除决定答案的关键细节（如某条折线）。这类改动视觉上微小，却足以颠覆答案。

此时训练目标反转：一旦关键证据消失，模型必须拒绝原答案。

这是一种反事实约束——任何绕过关键视觉证据的“替代推理”都应失效。

协同塑形感知

“拉”与“推”构成递进流程：

“拉”确保回答基于完整、必要的视觉证据；

二者协同，推动模型从表面关联走向因果一致的证据依赖，学会像人类一样“带着问题看世界”。

图表是最好的老师：用精确证据，教会模型“看哪里”

当BiPS把“看准”作为训练目标后，一个现实问题随之而来：

那些精细又紧扣问题的视觉证据，到底从哪儿来？

图表是极佳的训练起点：它们以多子图、细折线、小标记与精确刻度等，构成了高密度、高信息量的视觉场景。这些微小元素往往是解题的关键线索，提供了丰富且细粒度的感知材料。

更重要的是，图表中的视觉证据是可控的。每个元素都可被程序化地添加、移除或遮蔽，并能直接验证其对答案的影响，从而能够以程序化的方式，准确构建“证据保留”与“证据消融”的对照视图。

因此，在BiPS的训练体系中，图表是一个高复杂度、高度可控的实验场：既足够复杂以提供真实的细粒度证据，又足够可控以精准操纵这些证据。模型在此学习的，并非解读图表，而是在复杂视觉场景中，学会将注意力聚焦于与问题真正相关的局部线索。

13K训练样本，8个基准：一次“小数据”的能力迁移

BiPS展示出了一种高效而稳定的训练范式。仅用13K条图表样本对基础模型进行微调，无需人工标注，也未针对不同任务定制专门工具或模板。训练目标单一明确：学会“问题指哪，就看哪”的视觉逻辑。

效果显著：在8个不同的评测基准上，模型均实现了一致且显著的性能提升，涵盖：

真实图表理解（如CharXiv）
图像驱动的数理逻辑推理（如MathVision）
通用视觉问答（如MMStar）

以Qwen2.5-VL-7B为基础模型，BiPS带来了平均准确率+7.3%的提升，这一提升并非集中在某一特定领域，而是跨越数据分布、跨越任务类型的全面进步。

即便在推理能力已高度强化的Qwen3-VL-8B-Thinking上，这一效果依然成立：

CharXiv：53.0→58.1；MathVision：62.7→63.9；MMStar：75.3→76.3

这些结果表明，BiPS学到的不是“图表特有的解题技巧”，而是一种可迁移的“看对地方”的能力。

学会“看对地方”：迈向通用智能的关键一步

真正的视觉智能不仅是“看到”，更是在复杂信息中，聚焦于与问题相关的关键证据。

BiPS实现的并非简单的技巧优化，而是一种根本性的能力转变：使模型的视觉注意力从被动、均匀的扫视，转变为主动、问题驱动的精准聚焦。

这无疑是通向通用视觉智能的关键一步，其核心在于：让模型的眼睛，真正看向问题的关键。

论文链接：

https://arxiv.org/abs/2512.22120

关键推理视觉模型问题具体任务全又准折线答案证据图表 BiPS

上一篇：微软等四巨头狂砸6600亿美元豪赌AI，市值却蒸发9500亿美元

下一篇：密云举办“作家面对面”阅读推广活动，探讨如何善用AI高效学习

AI看图一本正经胡说八道？「一拉一推」让模型看得全又准｜微软x清华

相关内容

热门资讯