DeepSeek开源3B OCR模型:97%精度刷新长文本压缩极限
创始人
2025-10-21 11:20:21

10月21日消息,据媒体报道,DeepSeek在GitHub上开源了其最新研究成果——DeepSeek-OCR模型。

据介绍,DeepSeek-OCR的参数量约为3B,是研究团队对“光学二维映射压缩”技术在长文本上下文处理中可行性的首次探索。

该模型核心由DeepEncoder与DeepSeek3B-MoE-A570M解码器构成:DeepEncoder能够在高分辨率输入条件下保持低激活状态,实现高压缩比并生成适量的视觉token;解码器则负责将这些视觉token准确转化为文本信息。

实验数据显示,当文本token数量控制在视觉token的10倍以内(压缩率<10 x )时,OCR识别精度可达97%;即使压缩率提升至20×,模型准确率仍能维持在60%左右。

研究团队表示,这一成果为长上下文压缩技术以及大语言模型的记忆与遗忘机制研究提供了新的思路与方向。

【来源:快科技】

相关内容

热门资讯

人工智能顶级域名“AI.com... 观点网讯:2月8日,市场消息显示,人工智能顶级域名“AI.com”以7000万美元完成交易,刷新公开...
密云举办“作家面对面”阅读推广... 2月8日下午,由密云区委宣传部(密云区新闻出版局)主办、密云新华书店承办的“作家面对面”阅读推广活动...
AI看图一本正经胡说八道?「一... BiPS团队 投稿 量子位 | 公众号 QbitAI 随着视觉-语言模型(VLM)推理能力不断增强...
微软等四巨头狂砸6600亿美元... IT之家 2 月 8 日消息,当地时间 2 月 6 日,据外媒 The Decoder 报道,谷歌、...