dots.ocr: Nuevo VLM de 1.7B de Código Abierto Logra SOTA en Análisis Multilingüe de Documentos
Un nuevo modelo transformador de visión-lenguaje de código abierto, dots.ocr, está listo para redefinir el análisis de documentos multilingües y el reconocimiento óptico de caracteres (OCR). Desarrollado para agilizar el complejo proceso de análisis de documentos digitales, dots.ocr integra tanto la detección de diseño como el reconocimiento de contenido dentro de una arquitectura única y unificada, ofreciendo una solución integral para procesar una vasta gama de documentos estructurados y no estructurados en más de 100 idiomas.
En su núcleo, dots.ocr funciona como una red neuronal basada en transformadores, un tipo de modelo de IA experto en el manejo de datos secuenciales como el texto. Lo que lo distingue es su capacidad para realizar simultáneamente la comprensión del diseño del documento y la extracción de texto, eliminando la necesidad de tuberías de detección y OCR separadas, a menudo engorrosas. Este enfoque unificado no solo simplifica el flujo de trabajo, sino que también permite a los usuarios adaptar la tarea del modelo simplemente ajustando las indicaciones de entrada. Con 1.700 millones de parámetros, el modelo logra un equilibrio entre la eficiencia computacional y un rendimiento robusto, lo que lo hace adecuado para una amplia gama de aplicaciones prácticas. Su flexibilidad se extiende a los tipos de entrada, admitiendo tanto archivos de imagen como documentos PDF, e incluye opciones avanzadas de preprocesamiento, como fitz_preprocess
, para optimizar la calidad incluso para archivos de baja resolución o densos de varias páginas.
Las capacidades del modelo son notablemente amplias, comenzando por su extenso soporte multilingüe. Entrenado en diversos conjuntos de datos, dots.ocr maneja más de 100 idiomas, abarcando las principales lenguas globales, así como escrituras menos comunes, lo que subraya su versatilidad en un mundo globalmente conectado. Más allá de la mera extracción de texto, el modelo está diseñado para extraer texto plano, datos tabulares e incluso fórmulas matemáticas, renderizándolas en formatos como LaTeX. Fundamentalmente, preserva meticulosamente el orden de lectura original y la estructura del documento, incluyendo los límites de las tablas, las regiones de fórmulas y las ubicaciones de las imágenes. Esto asegura que los datos extraídos permanezcan fieles a la fuente, entregados en formatos estructurados como JSON, Markdown o HTML, dependiendo del contenido y el diseño.
En evaluaciones directas contra sistemas de IA de documentos contemporáneos, dots.ocr ha demostrado un rendimiento impresionante. Por ejemplo, en la precisión del análisis de tablas, medida por la precisión de Table TEDS, dots.ocr logró un 88,6%, superando el 85,8% de Gemini2.5-Pro. De manera similar, en la precisión de extracción de texto, indicada por la distancia de edición de texto, dots.ocr registró una tasa de error más baja de 0,032 en comparación con el 0,055 de Gemini2.5-Pro, lo que significa una mayor precisión en el reconocimiento de caracteres. El modelo también iguala o supera el rendimiento de los principales competidores en las complejas tareas de reconocimiento de fórmulas y reconstrucción general de la estructura del documento.
Sumando a su atractivo, dots.ocr se lanza bajo la permisiva licencia MIT, lo que lo hace disponible gratuitamente como un proyecto de código abierto. Su código fuente, documentación completa y modelos preentrenados son fácilmente accesibles en GitHub, lo que facilita su adopción e integración. Los desarrolladores pueden implementar el modelo utilizando gestores de paquetes estándar como pip o Conda, o aprovechar Docker para entornos contenerizados. El modelo soporta una configuración de tareas flexible a través de plantillas de prompts, lo que permite tanto el uso interactivo como la integración en pipelines automatizados para el procesamiento por lotes de documentos. Los resultados extraídos se proporcionan en formato JSON estructurado para uso programático, con opciones para Markdown y HTML cuando sea apropiado, complementados con scripts de visualización para inspeccionar los diseños detectados.
En resumen, dots.ocr presenta una solución técnica potente y accesible para el análisis de documentos multilingües de alta precisión. Al unificar la detección de diseño y el reconocimiento de contenido dentro de un único marco de código abierto, ofrece una herramienta robusta e independiente del idioma, particularmente adecuada para la extracción de información en diversos entornos de producción, incluso aquellos con recursos computacionales limitados.