AIPress.com.cn报道
1月29日,百度发布并开源新一代文档解析模型PaddleOCR-VL-1.5。该模型参数量仅0.9B,在全球权威文档解析评测榜单OmniDocBench V1.5中取得综合性能第一,整体精度94.5%,超过Gemini-3-Pro、DeepSeek-OCR2、Qwen3-VL-235B-A22B、GPT-5.2等模型。
该模型首次实现OCR领域的"异形框定位"能力,可以精准识别倾斜、弯折、拍照畸变等非规则文档形态。传统OCR模型在移动拍照、扫描件变形、复杂光照等场景中容易因文档形变导致识别失败,这项技术解决了这个问题。
应用场景包括金融票据处理、档案数字化、政务文档流转等。
在OmniDocBench V1.5的多个关键指标上,PaddleOCR-VL-1.5表现领先。表格结构理解92.8分、阅读顺序预测95.8分,两项均位列第一,分别领先Gemini-3-Pro、DeepSeek-OCR等模型2-5分。在文档阅读顺序预测任务中,版面逻辑解析错误率约为同类模型的一半。
相比2025年10月发布的上一代模型,PaddleOCR-VL-1.5新增印章识别、文本检测与识别等能力,优化了生僻字、古籍文献、多语种表格、下划线与复选框等复杂结构识别,新增藏语、孟加拉语支持。模型还支持跨页表格自动合并和跨页段落标题识别。
近半年来,OCR领域竞争明显升温。1月27日DeepSeek发布OCR-2,精度91.09%。Mistral AI、字节跳动、腾讯也相继推出新一代OCR模型。
PaddleOCR-VL-1.5已全面开源,可通过GitHub和Hugging Face获取。