AIPress.com.cn报道
1月27日消息,DeepSeek开源了新模型OCR2。
与其说这次发布的是一个 OCR 模型升级,不如说,DeepSeek 借 OCR 2 系统性调整了视觉—语言模型中“视觉应该如何被理解”的问题。
OCR 2 改变“识字方式”
在传统视觉-语言模型(VLM)中,图像通常被切分为视觉 Token,并按照从左上到右下的固定空间顺序输入模型。这种方式虽然在工程上更加简单,但并不符合人类真实的视觉认知路径。
我们在阅读复杂文档时,并不是机械扫图,而是会根据语义、结构和任务目标不断调整阅读顺序,精读重要的,忽略和阅读目的无关的,遇到注释角标还会直接跳到文末看注释……
DeepSeek OCR 2 的变化,正是试图把这种能力引入模型,让AI“带脑子”读取内容。
OCR 2 的核心,是新一代视觉编码器 DeepEncoder V2。它引入了一个关键概念:视觉因果流(Visual Causal Flow)。
具体来说,模型不再被迫接受固定顺序的视觉 Token,而是通过可学习的查询 Token,根据图像内容动态重排视觉信息的顺序。这意味着:视觉 Token 不再只是“被看见”,而是会被判断“先看什么、后看什么”。
在架构层面,DeepEncoder V2 采用了混合注意力机制,视觉 Token 内部使用双向注意力;因果流查询则引入因果注意力,使得模型可以在全局视觉信息的基础上,形成有逻辑的视觉顺序,再交给后续 LLM 推理。
用 LLM 替代 CLIP
在架构选择上,DeepSeek-OCR 2 并未沿用传统的 CLIP 视觉编码方案,而是采用基于阿里 Qwen2-0.5B 的 LLM 架构作为视觉编码器核心。这一设计使语言模型直接参与视觉 token 的编码与重排序,在 256–1120 的视觉 token 预算内完成复杂文档结构建模,也为 LLM 在多模态场景中承担前端编码角色提供了一个工程化案例。
这一步并不只是组件替换,而是一次路线选择:视觉不再只是对齐文本的“感知模块”,而是被视为一种可以参与因果建模的序列。
这也解释了为什么 OCR 2 能在不增加视觉 Token 预算的情况下,显著提升复杂文档理解能力。
在 OmniDocBench v1.5 上,DeepSeek OCR 2 的整体性能达到 91.09%,相比 OCR 1 提升 3.73%。
阅读顺序相关指标提升尤为明显,编辑距离从 0.085 降至 0.057。
在真实生产环境中,这种结构理解能力带来了直接收益:
在线 OCR 日志重复率:6.25% → 4.17%
PDF 数据处理重复率:3.69% → 2.88%
这些改善并非来自更大的模型,而是来自更合理的视觉信息组织方式。
高压缩下的效率取舍
OCR 2 依然维持了较低的视觉 Token 规模,输入给 LLM 的 Token 数量控制在 256–1120 之间,与 Gemini 3 Pro 的最大视觉 Token 预算一致。
在相同甚至更低的 Token 条件下,通过因果重排序提升信息密度,是 OCR 2 在工程上最具现实意义的地方。它证明了提升多模态能力并不必然依赖更大的上下文窗口。
二维视觉推理
DeepSeek 在论文中提到,未来将探索通过两个一维因果推理器级联,实现真正的 2D 图像理解与推理。
这意味着,OCR 2 可能只是一个“相对保守”的试验场,用来验证一件事:
LLM 架构是否可以承担多模态编码器的角色,并统一文本、视觉乃至语音的推理范式。
从结果看,DeepSeek OCR 2 并不是一次“功能爆炸式”的更新,但它让我们看到视觉开始像语言一样被纳入因果推理体系,让我们认识到AI真的越来越像人了。