DeepSeek开源DeepSeek-OCR 2,视觉理解能力大幅提升
创始人
2026-01-27 18:49:11

1月27日,DeepSeek开源DeepSeek-OCR 2模型,改变了AI处理图像的方式。新模型不再像传统AI那样机械地从左到右扫描图片,而是能根据内容重要性和逻辑关系决定阅读顺序,实现了从“固定扫描”到“语义推理”的转变。

技术突破核心在于DeepEncoder V2架构,该架构用Qwen2-500M轻量级语言模型替代传统CLIP编码器,并引入“因果流查询”机制。这使得AI能像人一样先看标题、再看正文,遇到表格会按行列阅读,遇到分栏能自动跳跃。

在OmniDocBench v1.5评测中,DeepSeek-OCR 2综合得分达91.09%,较前代提升3.73%。在阅读顺序准确度上,编辑距离从0.085显著降至0.057,逻辑理解能力提升33%。模型效率极高,处理复杂页面仅需256到1120个视觉Token。

实际应用数据显示,新模型将在线OCR日志重复率从6.25%降至4.17%,PDF数据处理重复率从3.69%降至2.88%。论文作者魏浩然、孙耀峰、李宇琨表示,这一设计为构建统一的全模态编码器提供了可行路径,未来可扩展到语音、视频等多模态处理。

相关内容

热门资讯

深耕细作·惠州行五洲·露营装备... 当露营从“诗和远方”变成周末常态,消费者的眼光也越来越“刁”。他们不再满足于“能住”,而是追求“好住...
帐篷选的好,露营受罪少,运良两... 帐篷选的好,露营受罪少,运良两款帐篷应该怎么选 运良越野 露营 帐篷 户外露营 户外装备
用这个帐篷过夜露营,可得小心了... 用这个帐篷过夜露营,可得小心了 帐篷露营 bivvybag
特价68丨6.07周日【三角山... 【三角山丨从化十登】千米山之恋 从化第七峰三角山 广州附近十座千米山峰你都去过吗? 这次跟随我们的...
原创 六... 一想起儿童节出游,脑子里是不是马上浮现出:景区门口望不到头的长队、餐厅里高到离谱的儿童套餐、游乐场里...