1月27日,DeepSeek开源DeepSeek-OCR 2模型,改变了AI处理图像的方式。新模型不再像传统AI那样机械地从左到右扫描图片,而是能根据内容重要性和逻辑关系决定阅读顺序,实现了从“固定扫描”到“语义推理”的转变。
技术突破核心在于DeepEncoder V2架构,该架构用Qwen2-500M轻量级语言模型替代传统CLIP编码器,并引入“因果流查询”机制。这使得AI能像人一样先看标题、再看正文,遇到表格会按行列阅读,遇到分栏能自动跳跃。
在OmniDocBench v1.5评测中,DeepSeek-OCR 2综合得分达91.09%,较前代提升3.73%。在阅读顺序准确度上,编辑距离从0.085显著降至0.057,逻辑理解能力提升33%。模型效率极高,处理复杂页面仅需256到1120个视觉Token。
实际应用数据显示,新模型将在线OCR日志重复率从6.25%降至4.17%,PDF数据处理重复率从3.69%降至2.88%。论文作者魏浩然、孙耀峰、李宇琨表示,这一设计为构建统一的全模态编码器提供了可行路径,未来可扩展到语音、视频等多模态处理。
上一篇:AI时代,腾讯需不需另一个微信?
下一篇:2026,进入AI记忆元年