刚刚！DeepSeek开源新模型OCR 2_科学探索

刚刚！DeepSeek开源新模型OCR 2

创始人

2026-01-27 16:18:12

AIPress.com.cn报道

1月27日消息，DeepSeek开源了新模型OCR2。

与其说这次发布的是一个 OCR 模型升级，不如说，DeepSeek 借 OCR 2 系统性调整了视觉—语言模型中“视觉应该如何被理解”的问题。

OCR 2 改变“识字方式”

在传统视觉-语言模型（VLM）中，图像通常被切分为视觉 Token，并按照从左上到右下的固定空间顺序输入模型。这种方式虽然在工程上更加简单，但并不符合人类真实的视觉认知路径。

我们在阅读复杂文档时，并不是机械扫图，而是会根据语义、结构和任务目标不断调整阅读顺序，精读重要的，忽略和阅读目的无关的，遇到注释角标还会直接跳到文末看注释……

DeepSeek OCR 2 的变化，正是试图把这种能力引入模型，让AI“带脑子”读取内容。

OCR 2 的核心，是新一代视觉编码器 DeepEncoder V2。它引入了一个关键概念：视觉因果流（Visual Causal Flow）。

具体来说，模型不再被迫接受固定顺序的视觉 Token，而是通过可学习的查询 Token，根据图像内容动态重排视觉信息的顺序。这意味着：视觉 Token 不再只是“被看见”，而是会被判断“先看什么、后看什么”。

在架构层面，DeepEncoder V2 采用了混合注意力机制，视觉 Token 内部使用双向注意力；因果流查询则引入因果注意力，使得模型可以在全局视觉信息的基础上，形成有逻辑的视觉顺序，再交给后续 LLM 推理。

用 LLM 替代 CLIP

在架构选择上，DeepSeek-OCR 2 并未沿用传统的 CLIP 视觉编码方案，而是采用基于阿里 Qwen2-0.5B 的 LLM 架构作为视觉编码器核心。这一设计使语言模型直接参与视觉 token 的编码与重排序，在 256–1120 的视觉 token 预算内完成复杂文档结构建模，也为 LLM 在多模态场景中承担前端编码角色提供了一个工程化案例。

这一步并不只是组件替换，而是一次路线选择：视觉不再只是对齐文本的“感知模块”，而是被视为一种可以参与因果建模的序列。

这也解释了为什么 OCR 2 能在不增加视觉 Token 预算的情况下，显著提升复杂文档理解能力。

在 OmniDocBench v1.5 上，DeepSeek OCR 2 的整体性能达到 91.09%，相比 OCR 1 提升 3.73%。

阅读顺序相关指标提升尤为明显，编辑距离从 0.085 降至 0.057。

在真实生产环境中，这种结构理解能力带来了直接收益：

在线 OCR 日志重复率：6.25% → 4.17%

PDF 数据处理重复率：3.69% → 2.88%

这些改善并非来自更大的模型，而是来自更合理的视觉信息组织方式。

高压缩下的效率取舍

OCR 2 依然维持了较低的视觉 Token 规模，输入给 LLM 的 Token 数量控制在 256–1120 之间，与 Gemini 3 Pro 的最大视觉 Token 预算一致。

在相同甚至更低的 Token 条件下，通过因果重排序提升信息密度，是 OCR 2 在工程上最具现实意义的地方。它证明了提升多模态能力并不必然依赖更大的上下文窗口。

二维视觉推理

DeepSeek 在论文中提到，未来将探索通过两个一维因果推理器级联，实现真正的 2D 图像理解与推理。

这意味着，OCR 2 可能只是一个“相对保守”的试验场，用来验证一件事：

LLM 架构是否可以承担多模态编码器的角色，并统一文本、视觉乃至语音的推理范式。

从结果看，DeepSeek OCR 2 并不是一次“功能爆炸式”的更新，但它让我们看到视觉开始像语言一样被纳入因果推理体系，让我们认识到AI真的越来越像人了。

推理架构视觉 DeepSeek 信息因果编码器模型顺序 Token 消息资讯模态

上一篇：原创中美迎来第3个历史转折点，特朗普访华之日，就是交易达成之时？

下一篇：全国首例生成式AI"幻觉"侵权案宣判：用户诉AI承诺赔偿10万一审败诉

刚刚！DeepSeek开源新模型OCR 2

相关内容

热门资讯