性能超越DeepSeek-OCR2,百度发布并开源新一代SOTA OCR模型
创始人
2026-01-30 12:18:22

AIPress.com.cn报道

1月29日,百度发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型参数量仅0.9B,在全球权威文档解析评测榜单OmniDocBench V1.5中取得综合性能第一,整体精度94.5%,超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。

该模型首次实现OCR领域的"异形框定位"能力,可以精准识别倾斜、弯折、拍照畸变等非规则文档形态。传统OCR模型在移动拍照、扫描件变形、复杂光照等场景中容易因文档形变导致识别失败,这项技术解决了这个问题。

应用场景包括金融票据处理、档案数字化、政务文档流转等。

在OmniDocBench V1.5的多个关键指标上,PaddleOCR-VL-1.5表现领先。表格结构理解92.8分、阅读顺序预测95.8分,两项均位列第一,分别领先Gemini-3-Pro、DeepSeek-OCR等模型2-5分。在文档阅读顺序预测任务中,版面逻辑解析错误率约为同类模型的一半。

相比2025年10月发布的上一代模型,PaddleOCR-VL-1.5新增印章识别、文本检测与识别等能力,优化了生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别,新增藏语、孟加拉语支持。模型还支持跨页表格自动合并和跨页段落标题识别。

近半年来,OCR领域竞争明显升温。1月27日DeepSeek发布OCR-2,精度91.09%。Mistral AI、字节跳动、腾讯也相继推出新一代OCR模型。

PaddleOCR-VL-1.5已全面开源,可通过GitHub和Hugging Face获取。

相关内容

热门资讯

万象山水:在湄公河的呼吸里,慢... 如果你第一次来到万象,可能会有一点不适应。 这里没有高楼林立的压迫感,也没有车水马龙的喧哗。时间仿佛...
小众旅游美景怎么找?川西秘境这... 真正称得上旅游美景之处,绝不仅仅限于由视觉那一层面所带来的那种震撼感受,它所蕴含的价值那是极为深刻且...
原创 李... 谁能想到,韩国总统李在明的新年第一枪,不是打向惯例中的华盛顿或东京,而是瞄准了北京?更让人没想到的是...
江苏去年旅游业发展怎么样?今年... 交汇点讯 1月29日,江苏省旅游委员会全体会议在南京召开,会议回顾了2025年全省旅游业发展情况,并...
中国AI,最新趋势来了! 新华深读|2026年中国AI发展趋势前瞻 人工智能(AI)企业数量超过6000家,AI核心产业规模预...