摘要:2026年3月19日,百度智能云千帆大模型平台正式推出革命性的端到端文档智能模型——Qianfan-OCR。这款模型彻底抛弃了传统OCR“检测、识别、理解”的多段式流水线,采用统一的4B参数视觉语言架构,将文档解析、版面分析、文字识别与语义理解四大能力融为一体。其在权威评测中表现惊艳,不仅在OmniDocBench v1.5上以93.12分位列端到端模型榜首,其关键信息抽取(KIE)能力甚至超过了Google Gemini 3-Pro等顶级商用模型。这标志着文档智能处理正式从“流程拼接”迈入“模型统一”的新时代。
对于开发者和企业而言,获取并使用Qianfan-OCR的路径非常清晰。百度提供了从云端服务到开源代码的全套方案:
传统的工业级OCR系统就像一个分工明确的流水线,需要多个模型接力完成:检测模型先框出位置,识别模型再读出文字,最后交给大模型去理解。这套模式成熟,但问题也明显:流程长、误差会累积、部署复杂,最关键的是,当文本从图片中被“抠”出来后,原有的版面、图表结构等视觉上下文就丢失了,严重制约了对复杂文档的理解深度。
Qianfan-OCR的突破在于,它用一个端到端模型完成了上述所有工作。其核心优势对比一目了然:
简单来说,Qianfan-OCR让模型学会了“先看版式,再读内容”。它通过独特的 <think> Layout</think> 思考令牌,在生成最终答案前,先在内部对文档的排版、元素位置和阅读顺序进行推理和建模。这使得它在处理多栏文档、复杂表格、图表等场景时,表现出远超传统方法的鲁棒性和准确性。
<think> Layout</think>
这项技术革新将直接赋能大量需要处理非结构化文档的行业,解决实际痛点:
百度此次发布Qianfan-OCR,不仅是推出一款高性能模型,更是将其置于千帆大模型平台的整体战略中。通过提供从顶尖模型、开源代码、便捷技能到强大算力(如自研昆仑芯)的全栈服务,百度正致力于降低AI应用门槛,推动端到端文档智能这一先进范式在千行百业中快速落地,兑现其“用科技让复杂的世界更简单”的使命。
文章来源:综合自百度智能云官方发布、魔搭ModelScope社区报道及相关行业分析。