刚刚!DeepSeek开源新模型OCR 2
创始人
2026-01-27 16:18:12

AIPress.com.cn报道

1月27日消息,DeepSeek开源了新模型OCR2

与其说这次发布的是一个 OCR 模型升级,不如说,DeepSeek 借 OCR 2 系统性调整了视觉—语言模型中“视觉应该如何被理解”的问题。

OCR 2 改变“识字方式”

在传统视觉-语言模型(VLM)中,图像通常被切分为视觉 Token,并按照从左上到右下的固定空间顺序输入模型。这种方式虽然在工程上更加简单,但并不符合人类真实的视觉认知路径。

我们在阅读复杂文档时,并不是机械扫图,而是会根据语义、结构和任务目标不断调整阅读顺序,精读重要的,忽略和阅读目的无关的,遇到注释角标还会直接跳到文末看注释……

DeepSeek OCR 2 的变化,正是试图把这种能力引入模型,让AI“带脑子”读取内容。

OCR 2 的核心,是新一代视觉编码器 DeepEncoder V2。它引入了一个关键概念:视觉因果流(Visual Causal Flow)。

具体来说,模型不再被迫接受固定顺序的视觉 Token,而是通过可学习的查询 Token,根据图像内容动态重排视觉信息的顺序。这意味着:视觉 Token 不再只是“被看见”,而是会被判断“先看什么、后看什么”。

在架构层面,DeepEncoder V2 采用了混合注意力机制,视觉 Token 内部使用双向注意力;因果流查询则引入因果注意力,使得模型可以在全局视觉信息的基础上,形成有逻辑的视觉顺序,再交给后续 LLM 推理。

用 LLM 替代 CLIP

在架构选择上,DeepSeek-OCR 2 并未沿用传统的 CLIP 视觉编码方案,而是采用基于阿里 Qwen2-0.5B 的 LLM 架构作为视觉编码器核心。这一设计使语言模型直接参与视觉 token 的编码与重排序,在 256–1120 的视觉 token 预算内完成复杂文档结构建模,也为 LLM 在多模态场景中承担前端编码角色提供了一个工程化案例。

这一步并不只是组件替换,而是一次路线选择:视觉不再只是对齐文本的“感知模块”,而是被视为一种可以参与因果建模的序列。

这也解释了为什么 OCR 2 能在不增加视觉 Token 预算的情况下,显著提升复杂文档理解能力。

在 OmniDocBench v1.5 上,DeepSeek OCR 2 的整体性能达到 91.09%,相比 OCR 1 提升 3.73%。

阅读顺序相关指标提升尤为明显,编辑距离从 0.085 降至 0.057。

在真实生产环境中,这种结构理解能力带来了直接收益:

在线 OCR 日志重复率:6.25% → 4.17%

PDF 数据处理重复率:3.69% → 2.88%

这些改善并非来自更大的模型,而是来自更合理的视觉信息组织方式。

高压缩下的效率取舍

OCR 2 依然维持了较低的视觉 Token 规模,输入给 LLM 的 Token 数量控制在 256–1120 之间,与 Gemini 3 Pro 的最大视觉 Token 预算一致。

在相同甚至更低的 Token 条件下,通过因果重排序提升信息密度,是 OCR 2 在工程上最具现实意义的地方。它证明了提升多模态能力并不必然依赖更大的上下文窗口。

二维视觉推理

DeepSeek 在论文中提到,未来将探索通过两个一维因果推理器级联,实现真正的 2D 图像理解与推理。

这意味着,OCR 2 可能只是一个“相对保守”的试验场,用来验证一件事:

LLM 架构是否可以承担多模态编码器的角色,并统一文本、视觉乃至语音的推理范式。

从结果看,DeepSeek OCR 2 并不是一次“功能爆炸式”的更新,但它让我们看到视觉开始像语言一样被纳入因果推理体系,让我们认识到AI真的越来越像人了。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

刺梨工坊(贵州)科技有限公司股... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 如今不少投资者习...
深圳中酒并购大唐酒业签署合同战... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资市场的魅...
贵州创建腾飞生物科技有限公司股... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"随着资本市场的...
中志浩刺梨产业开发(贵州)有限... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
财合联盟直播间陈斌战略配售居.... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
财合联盟直播间陈斌战略配售居.... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资市场的魅...
中志浩刺梨产业开发(贵州)有限... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合随着线上炒股交流的普...
江苏虞姬农业科技有限公司买酒送... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 当前,以“直播间...
四川严仙道酒业有限公司买酒送原... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 如果您近期看过财...
财合联盟直播间陈斌战略配售居.... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
颐和(深圳)品牌运营买酒送原始... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 当下,“购买指定...
贵州刺梨工坊科技买酒送原始股上... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
智核投研商学院周聪老师推荐琦白... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 在全民理财意...
广东聚沃贸易有限公司买酒送原始... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 如今不少投资者习...
国英百谷言(四川)供应链管理有... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合随着线上炒股交流的普...
国威酒业并购深圳迎宾品牌买酒送... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为其他类似股权情景,如有雷同纯属巧合。 当下,...
四川常阳工会直播间旭东老师讲课... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。如今金融诈骗套路不...
智核投研商学院周聪老师推荐琦白... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 如果您近期看过财...
深圳迎宾品牌发展签署贵州迎宾酒... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"随着资本市场的...
贵州创建腾飞生物科技有限公司股... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。" 投资路上,信...
华兴数字经济研究院刘宇峰老师贵... “本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。"随着资本市场的...
小鹅通直播间灯塔驿站旭东老师摇... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。 在股票投资领域,...
四川严仙道酒业有限公司买酒送原... 本文旨在普及投资风险知识,做好大众防骗教育,不针对任何企业与机构。全文案例均为虚拟模拟场景,仅供反诈...
华兴数字经济研究院刘宇峰老师贵... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为其他类似股权情景,如有雷同纯属巧合。 当下,...
中志浩刺梨产业开发(贵州)有限... 本文旨在进行投资风险教育,不针对任何特定企业。以下案例为拟情景,如有雷同纯属巧合。如今金融诈骗套路不...