dots.ocr:新型17亿参数开源VLM实现多语言文档解析SOTA
一款新的开源视觉语言Transformer模型dots.ocr,有望重新定义多语言文档解析和光学字符识别(OCR)。dots.ocr旨在简化复杂的数字文档分析过程,将布局检测和内容识别整合到单一的统一架构中,为处理100多种语言的大量结构化和非结构化文档提供全面的解决方案。
dots.ocr的核心是一个基于Transformer的神经网络,这是一种擅长处理文本等序列数据的AI模型。其独特之处在于它能够同时执行文档布局理解和文本提取,从而无需单独的、通常繁琐的检测和OCR流水线。这种统一的方法不仅简化了工作流程,还允许用户通过简单调整输入提示来适应模型的任务。该模型拥有17亿参数,在计算效率和强大性能之间取得了平衡,使其适用于广泛的实际应用。其灵活性还扩展到输入类型,可支持图像文件和PDF文档,并包含高级预处理选项,例如fitz_preprocess
,即使对于低分辨率或密集的多页文件也能优化质量。
该模型的功能范围显著广泛,首先是其广泛的多语言支持。dots.ocr在多样化数据集上进行训练,可处理100多种语言,涵盖主要的全球语言以及不常见的文字,这凸显了其在全球互联世界中的多功能性。除了单纯的文本提取,该模型还旨在提取纯文本、表格数据,甚至数学公式,并将其呈现为LaTeX等格式。至关重要的是,它一丝不苟地保留了原始阅读顺序和文档结构,包括表格边界、公式区域和图像位置。这确保了提取的数据忠实于源文档,并根据内容和布局以JSON、Markdown或HTML等结构化格式交付。
在与当代文档AI系统的直接评估中,dots.ocr展现了令人印象深刻的性能。例如,在通过Table TEDS准确率衡量的表格解析准确率方面,dots.ocr达到了88.6%,超过了Gemini2.5-Pro的85.8%。同样,在通过文本编辑距离表示的文本提取精度方面,dots.ocr的错误率更低,为0.032,而Gemini2.5-Pro为0.055,这表明其字符识别准确率更高。该模型在公式识别和整体文档结构重建等复杂任务中也达到了或超过了主要竞争对手的性能。
此外,dots.ocr以宽松的MIT许可证发布,使其作为开源项目免费提供。其源代码、全面的文档和预训练模型均可在GitHub上轻松获取,便于采用和集成。开发人员可以使用pip或Conda等标准包管理器部署该模型,或利用Docker用于容器化环境。该模型通过提示模板支持灵活的任务配置,既可用于交互式使用,也可集成到自动化流水线中进行批量文档处理。提取的结果以结构化JSON格式提供,便于程序化使用,并可在适当情况下选择Markdown和HTML格式,辅以可视化脚本来检查检测到的布局。
总而言之,dots.ocr为高精度、多语言文档解析提供了一个强大且易于访问的技术解决方案。通过将布局检测和内容识别统一到单一的开源框架中,它提供了一个健壮、语言无关的工具,特别适合在各种生产环境(即使是计算资源有限的环境)中进行信息提取。