DeepSeek开源DeepSeek-OCR 2，视觉理解能力大幅提升_学习资源

创始人

2026-01-27 18:49:11

1月27日，DeepSeek开源DeepSeek-OCR 2模型，改变了AI处理图像的方式。新模型不再像传统AI那样机械地从左到右扫描图片，而是能根据内容重要性和逻辑关系决定阅读顺序，实现了从“固定扫描”到“语义推理”的转变。

技术突破核心在于DeepEncoder V2架构，该架构用Qwen2-500M轻量级语言模型替代传统CLIP编码器，并引入“因果流查询”机制。这使得AI能像人一样先看标题、再看正文，遇到表格会按行列阅读，遇到分栏能自动跳跃。

在OmniDocBench v1.5评测中，DeepSeek-OCR 2综合得分达91.09%，较前代提升3.73%。在阅读顺序准确度上，编辑距离从0.085显著降至0.057，逻辑理解能力提升33%。模型效率极高，处理复杂页面仅需256到1120个视觉Token。

实际应用数据显示，新模型将在线OCR日志重复率从6.25%降至4.17%，PDF数据处理重复率从3.69%降至2.88%。论文作者魏浩然、孙耀峰、李宇琨表示，这一设计为构建统一的全模态编码器提供了可行路径，未来可扩展到语音、视频等多模态处理。