刚刚!DeepSeek开源新模型OCR 2
创始人
2026-01-27 16:18:12

AIPress.com.cn报道

1月27日消息,DeepSeek开源了新模型OCR2

与其说这次发布的是一个 OCR 模型升级,不如说,DeepSeek 借 OCR 2 系统性调整了视觉—语言模型中“视觉应该如何被理解”的问题。

OCR 2 改变“识字方式”

在传统视觉-语言模型(VLM)中,图像通常被切分为视觉 Token,并按照从左上到右下的固定空间顺序输入模型。这种方式虽然在工程上更加简单,但并不符合人类真实的视觉认知路径。

我们在阅读复杂文档时,并不是机械扫图,而是会根据语义、结构和任务目标不断调整阅读顺序,精读重要的,忽略和阅读目的无关的,遇到注释角标还会直接跳到文末看注释……

DeepSeek OCR 2 的变化,正是试图把这种能力引入模型,让AI“带脑子”读取内容。

OCR 2 的核心,是新一代视觉编码器 DeepEncoder V2。它引入了一个关键概念:视觉因果流(Visual Causal Flow)。

具体来说,模型不再被迫接受固定顺序的视觉 Token,而是通过可学习的查询 Token,根据图像内容动态重排视觉信息的顺序。这意味着:视觉 Token 不再只是“被看见”,而是会被判断“先看什么、后看什么”。

在架构层面,DeepEncoder V2 采用了混合注意力机制,视觉 Token 内部使用双向注意力;因果流查询则引入因果注意力,使得模型可以在全局视觉信息的基础上,形成有逻辑的视觉顺序,再交给后续 LLM 推理。

用 LLM 替代 CLIP

在架构选择上,DeepSeek-OCR 2 并未沿用传统的 CLIP 视觉编码方案,而是采用基于阿里 Qwen2-0.5B 的 LLM 架构作为视觉编码器核心。这一设计使语言模型直接参与视觉 token 的编码与重排序,在 256–1120 的视觉 token 预算内完成复杂文档结构建模,也为 LLM 在多模态场景中承担前端编码角色提供了一个工程化案例。

这一步并不只是组件替换,而是一次路线选择:视觉不再只是对齐文本的“感知模块”,而是被视为一种可以参与因果建模的序列。

这也解释了为什么 OCR 2 能在不增加视觉 Token 预算的情况下,显著提升复杂文档理解能力。

在 OmniDocBench v1.5 上,DeepSeek OCR 2 的整体性能达到 91.09%,相比 OCR 1 提升 3.73%。

阅读顺序相关指标提升尤为明显,编辑距离从 0.085 降至 0.057。

在真实生产环境中,这种结构理解能力带来了直接收益:

在线 OCR 日志重复率:6.25% → 4.17%

PDF 数据处理重复率:3.69% → 2.88%

这些改善并非来自更大的模型,而是来自更合理的视觉信息组织方式。

高压缩下的效率取舍

OCR 2 依然维持了较低的视觉 Token 规模,输入给 LLM 的 Token 数量控制在 256–1120 之间,与 Gemini 3 Pro 的最大视觉 Token 预算一致。

在相同甚至更低的 Token 条件下,通过因果重排序提升信息密度,是 OCR 2 在工程上最具现实意义的地方。它证明了提升多模态能力并不必然依赖更大的上下文窗口。

二维视觉推理

DeepSeek 在论文中提到,未来将探索通过两个一维因果推理器级联,实现真正的 2D 图像理解与推理。

这意味着,OCR 2 可能只是一个“相对保守”的试验场,用来验证一件事:

LLM 架构是否可以承担多模态编码器的角色,并统一文本、视觉乃至语音的推理范式。

从结果看,DeepSeek OCR 2 并不是一次“功能爆炸式”的更新,但它让我们看到视觉开始像语言一样被纳入因果推理体系,让我们认识到AI真的越来越像人了。

相关内容

热门资讯

客如云AI碰碰贴,解锁餐饮客流... 在数字化经营时代,智能化、一体化的营销工具成为商家提升运营效率的核心支撑。今年,客如云新推出的AI碰...
澄天伟业首板涨停 开源证券西安... 澄天伟业周二表现强劲,股价涨停,报收于53.3元。盘后龙虎榜数据显示,买卖席位呈现出机构与游资共同参...
刚刚,微软全新一代自研AI芯片... 机器之心编辑部 一觉醒来,我们看到了微软自研 AI 芯片的最新进展。 微软原定于 2025 年发布的...
QuestMobile:AI搜... 北京商报讯(记者 魏蔚)1月27日,商业智能数据服务商QuestMobile正式发布的《中国互联网发...
广西:“AI社工”上线,基层“... 颁奖仪式(人民网 冯肖慧 摄) 11月21日,2025年广西人工智能+社会工作创新应用大赛颁奖仪式在...