性能超越DeepSeek-OCR2,百度发布并开源新一代SOTA OCR模型
创始人
2026-01-30 12:18:22

AIPress.com.cn报道

1月29日,百度发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型参数量仅0.9B,在全球权威文档解析评测榜单OmniDocBench V1.5中取得综合性能第一,整体精度94.5%,超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。

该模型首次实现OCR领域的"异形框定位"能力,可以精准识别倾斜、弯折、拍照畸变等非规则文档形态。传统OCR模型在移动拍照、扫描件变形、复杂光照等场景中容易因文档形变导致识别失败,这项技术解决了这个问题。

应用场景包括金融票据处理、档案数字化、政务文档流转等。

在OmniDocBench V1.5的多个关键指标上,PaddleOCR-VL-1.5表现领先。表格结构理解92.8分、阅读顺序预测95.8分,两项均位列第一,分别领先Gemini-3-Pro、DeepSeek-OCR等模型2-5分。在文档阅读顺序预测任务中,版面逻辑解析错误率约为同类模型的一半。

相比2025年10月发布的上一代模型,PaddleOCR-VL-1.5新增印章识别、文本检测与识别等能力,优化了生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别,新增藏语、孟加拉语支持。模型还支持跨页表格自动合并和跨页段落标题识别。

近半年来,OCR领域竞争明显升温。1月27日DeepSeek发布OCR-2,精度91.09%。Mistral AI、字节跳动、腾讯也相继推出新一代OCR模型。

PaddleOCR-VL-1.5已全面开源,可通过GitHub和Hugging Face获取。

相关内容

热门资讯

原创 黄... 黄磊和孙莉带着他们的二女儿以及刚出生的三胎儿子,一家四口悠闲地游玩广东。自从嫁入黄磊的家庭后,孙莉几...
【安庆新闻联播】春茶采摘正当时... 安庆各地立足生态资源禀赋和茶产业基础,以茶旅融合为主线,推动生态优势向产业优势、发展优势转化,走出一...
南京位列五一酒店预订热门目的地... 近日,同程旅行发布的《2026年五一旅行趋势报告》显示,南京位列五一假期酒店预订热门目的地TOP2,...
旅行是疲惫生活的解药:2026... 旅行,是我们给自己的温柔奖励 会不会你也常常有感觉到些许疲惫的时候呢,日子被工作以及那些琐碎的事情给...
暑假带孩子来伊犁研学?这份哈萨... 暑假带孩子来伊犁研学?这份哈萨克非遗与草原生态深度游攻略请收好! 每年暑假,都有许多像您一样的家长,...