性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型_学习资源

性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型

创始人

2026-01-30 12:18:22

AIPress.com.cn报道

1月29日，百度发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型参数量仅0.9B，在全球权威文档解析评测榜单OmniDocBench V1.5中取得综合性能第一，整体精度94.5%，超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。

该模型首次实现OCR领域的"异形框定位"能力，可以精准识别倾斜、弯折、拍照畸变等非规则文档形态。传统OCR模型在移动拍照、扫描件变形、复杂光照等场景中容易因文档形变导致识别失败，这项技术解决了这个问题。

应用场景包括金融票据处理、档案数字化、政务文档流转等。

在OmniDocBench V1.5的多个关键指标上，PaddleOCR-VL-1.5表现领先。表格结构理解92.8分、阅读顺序预测95.8分，两项均位列第一，分别领先Gemini-3-Pro、DeepSeek-OCR等模型2-5分。在文档阅读顺序预测任务中，版面逻辑解析错误率约为同类模型的一半。

相比2025年10月发布的上一代模型，PaddleOCR-VL-1.5新增印章识别、文本检测与识别等能力，优化了生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别，新增藏语、孟加拉语支持。模型还支持跨页表格自动合并和跨页段落标题识别。

近半年来，OCR领域竞争明显升温。1月27日DeepSeek发布OCR-2，精度91.09%。Mistral AI、字节跳动、腾讯也相继推出新一代OCR模型。

PaddleOCR-VL-1.5已全面开源，可通过GitHub和Hugging Face获取。

上一篇：OUBO鸥柏丨49英寸国产化一体机龙芯CPU deepin交互式查询终端

下一篇：原创 AI语音输入法，大厂争夺的上下文入口

性能超越DeepSeek-OCR2，百度发布并开源新一代SOTA OCR模型

相关内容

热门资讯