在文档数字化与知识库构建中,光学字符识别(OCR)技术一直是基石。然而,传统方法在速度与准确性上始终面临瓶颈。近日,由上海人工智能实验室OpenDataLab团队开发的MinerU项目,发布了其革命性的MinerU-Diffusion框架。它摒弃了业界沿用多年的“自回归”解码范式,创新性地采用扩散模型进行并行解码,在保证极高精度的同时,将文档OCR的吞吐量提升了最高5倍,堪称该领域近年来最重大的范式转换。
传统OCR模型通常采用自回归解码,即像人阅读一样,从左到右、一个字接一个字地生成文本。这种方式存在三大固有缺陷:速度慢(生成第N个字必须等待前N-1个字完成)、错误累积(前面认错,后面大概率跟着错)以及过度依赖语义联想而非视觉证据(更像是在“猜”下文,而不是“看”图像)。
MinerU-Diffusion的核心思想是将OCR重新定义为“逆渲染”问题。正如文档渲染是将文本变成图片,OCR则是将图片还原为文本。既然渲染过程无需逐字进行,解码为何必须串行?基于此,团队设计了三大关键技术:
根据在权威基准OmniDocBench v1.5上的测试,MinerU-Diffusion展现了颠覆性的性能:
MinerU-Diffusion-V1是一个2.5B参数的多功能模型,支持布局检测、文本识别、公式提取和表格识别四大任务。对于开发者和研究者而言,上手门槛极低。
基本安装与使用步骤:
opendatalab/MinerU-Diffusion-V1-0320-2.5B
对于不想部署环境的用户,可以直接访问HuggingFace上的 Gradio Demo 在线体验其强大能力。
MinerU-Diffusion的突破性不仅在于提供了一个更快的工具,更在于它验证了一个根本理念:OCR的本质是视觉任务,而非语言生成任务。解码方式必须与任务本质对齐。自回归解码是语言模型的“母语”,但用于OCR时,却可能让模型过度依赖语义先验而忽略了图像本身的视觉证据。
从成为开源文档解析事实标准的MinerU,到在多个基准领先的MinerU2.5,再到如今开创扩散解码新范式的MinerU-Diffusion,该团队持续推动着OCR技术的前沿。这项“显影式”OCR技术的成熟,将为大规模文档数字化、高精度知识库构建以及任何需要处理复杂格式文档的AI应用,注入全新的动力。
文章来源:本文基于技术社区分享的《MinerU 再次改变 OCR,5 倍提升》一文进行科普化改写与信息整合,旨在介绍OCR领域的最新进展。