性能超越DeepSeek-OCR2,百度发布并开源新一代SOTA OCR模型
创始人
2026-01-30 12:18:22

AIPress.com.cn报道

1月29日,百度发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型参数量仅0.9B,在全球权威文档解析评测榜单OmniDocBench V1.5中取得综合性能第一,整体精度94.5%,超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。

该模型首次实现OCR领域的"异形框定位"能力,可以精准识别倾斜、弯折、拍照畸变等非规则文档形态。传统OCR模型在移动拍照、扫描件变形、复杂光照等场景中容易因文档形变导致识别失败,这项技术解决了这个问题。

应用场景包括金融票据处理、档案数字化、政务文档流转等。

在OmniDocBench V1.5的多个关键指标上,PaddleOCR-VL-1.5表现领先。表格结构理解92.8分、阅读顺序预测95.8分,两项均位列第一,分别领先Gemini-3-Pro、DeepSeek-OCR等模型2-5分。在文档阅读顺序预测任务中,版面逻辑解析错误率约为同类模型的一半。

相比2025年10月发布的上一代模型,PaddleOCR-VL-1.5新增印章识别、文本检测与识别等能力,优化了生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别,新增藏语、孟加拉语支持。模型还支持跨页表格自动合并和跨页段落标题识别。

近半年来,OCR领域竞争明显升温。1月27日DeepSeek发布OCR-2,精度91.09%。Mistral AI、字节跳动、腾讯也相继推出新一代OCR模型。

PaddleOCR-VL-1.5已全面开源,可通过GitHub和Hugging Face获取。

相关内容

热门资讯

深耕细作·惠州行五洲·露营装备... 当露营从“诗和远方”变成周末常态,消费者的眼光也越来越“刁”。他们不再满足于“能住”,而是追求“好住...
帐篷选的好,露营受罪少,运良两... 帐篷选的好,露营受罪少,运良两款帐篷应该怎么选 运良越野 露营 帐篷 户外露营 户外装备
用这个帐篷过夜露营,可得小心了... 用这个帐篷过夜露营,可得小心了 帐篷露营 bivvybag
特价68丨6.07周日【三角山... 【三角山丨从化十登】千米山之恋 从化第七峰三角山 广州附近十座千米山峰你都去过吗? 这次跟随我们的...
原创 六... 一想起儿童节出游,脑子里是不是马上浮现出:景区门口望不到头的长队、餐厅里高到离谱的儿童套餐、游乐场里...