百度放大招了,不仅开源了视觉大模型,而且还是用自家芯片跑通了全流程。
9月22日,百度智能云千帆正式的推出了全新视觉理解大模型Qianfan-VL,而且直接全面开源,从3B到70B三个尺寸版本,专门给企业级多模态应用量身定制。更关键的是,这个模型从头到尾的计算任务都是在百度自研的昆仑芯P800上完成的。
要是处理教育领域的复杂图表推理,70B版本能通过特殊token激活思维链,一步一步拆解问题,连数学题里的公式和图形都能够理清楚。再看算力底气,这个模型能在昆仑芯P800上跑通全流程可不是随便说说的。
昆仑芯P800不仅提供了强大的算力支撑,还支持单任务5千卡规模的并行计算,相当于给模型配了一个超级高速计算,计算效率直接拉满。之前很多大模型要么依赖国外芯片,要么算力跟不上,导致落地的时候效果大打折扣。
更绝复杂版面里的表格图表,它能够自动分析元素,直接输出结构化结果,还能回答文档里的问题。这些能力可不是实验室里的数据,在OCR、PROFP等专业测试里,它的成绩比主流模型都好,参数越大表现越稳。
可以说企业要的不是花瓶模型,而是能够解决具体问题,用得起、用得顺的工具。Qianfan-VL的开源降低了企业的技术门槛,多尺寸适配让不同规模的企业都能够找到解决方案。自研芯片加模型的协同又解决了算力效率的后顾之忧。
但这波操作不仅是百度在多模态视觉理解上的技术突破,更可能推动金融、教育、政务等行业的AI落地再上一个台阶。毕竟当企业能低成本、高效率地用上量身定制的世界大模型,很多以前不敢想的智能化场景可能都会变成现实。