Ovis 2.5 de Alibaba: Un Avance Pionero en LLM Multimodal de Código Abierto
El equipo AIDC-AI de Alibaba ha presentado Ovis 2.5, su último gran modelo de lenguaje multimodal (MLLM), causando un impacto significativo en la comunidad de inteligencia artificial de código abierto. Disponible en versiones de 9.000 millones y 2.000 millones de parámetros, Ovis 2.5 introduce avances técnicos fundamentales que redefinen los puntos de referencia de rendimiento y eficiencia para los MLLM, particularmente en el manejo de información visual de alto detalle y tareas de razonamiento complejas que han desafiado el campo durante mucho tiempo.
Una piedra angular de la innovación de Ovis 2.5 radica en su transformador de visión de resolución nativa (NaViT). Esto permite que el modelo procese imágenes en sus resoluciones originales y variables, una marcada diferencia de enfoques anteriores que a menudo dependían de la división en mosaicos o el redimensionamiento forzado. Dichos métodos antiguos con frecuencia resultaban en la pérdida de contexto global vital y detalles intrincados. Al preservar la integridad total tanto de gráficos complejos como de imágenes naturales, NaViT permite que Ovis 2.5 sobresalga en tareas visualmente densas, desde la interpretación de diagramas científicos hasta el análisis de infografías y formularios elaborados.
Más allá de la percepción visual mejorada, Ovis 2.5 aborda las complejidades del razonamiento con un currículo de entrenamiento sofisticado. Esto va más allá de la supervisión estándar de cadena de pensamiento al incorporar muestras de “estilo de pensamiento” diseñadas para la autocorrección y la reflexión. La culminación de este enfoque es un “modo de pensamiento” opcional en el momento de la inferencia. Si bien habilitar este modo puede sacrificar algo de velocidad de respuesta, aumenta significativamente la precisión paso a paso y permite una introspección más profunda del modelo, lo que resulta particularmente ventajoso para tareas que exigen un análisis multimodal profundo, como la respuesta a preguntas científicas o la resolución de problemas matemáticos complejos.
Las capacidades de Ovis 2.5 se reflejan en sus impresionantes resultados de referencia. El modelo Ovis 2.5-9B, más grande, logró una puntuación promedio de 78.3 en la tabla de clasificación multimodal de OpenCompass, posicionándolo como un contendiente líder entre todos los MLLM de código abierto de menos de 40.000 millones de parámetros. Su hermano más compacto, Ovis 2.5-2B, también estableció un nuevo estándar para modelos ligeros, con una puntuación de 73.9, lo que lo convierte en un candidato ideal para aplicaciones en dispositivos o con recursos limitados. Ambos modelos demuestran un rendimiento excepcional en dominios especializados, superando a los competidores de código abierto en áreas como el razonamiento STEM (validado en conjuntos de datos como MathVista, MMMU y WeMath), el reconocimiento óptico de caracteres (OCR) y el análisis de gráficos (como se ve en OCRBench v2 y ChartQA Pro), la conexión visual (RefCOCO, RefCOCOg) y la comprensión integral de video y múltiples imágenes (BLINK, VideoMME). Las discusiones en línea entre desarrolladores de IA han elogiado particularmente los avances en OCR y procesamiento de documentos, destacando la capacidad mejorada del modelo para extraer texto de imágenes desordenadas, comprender formularios complejos y manejar diversas consultas visuales con flexibilidad.
La eficiencia es otra característica distintiva de Ovis 2.5. Los modelos optimizan el entrenamiento de extremo a extremo mediante técnicas como el empaquetado de datos multimodales y el paralelismo híbrido avanzado, lo que produce una aceleración de hasta tres o incluso cuatro veces en el rendimiento general. Además, la variante ligera de 2.000 millones de parámetros encarna una filosofía de “modelo pequeño, gran rendimiento”, extendiendo la comprensión multimodal de alta calidad a hardware móvil y dispositivos de borde, democratizando así el acceso a capacidades avanzadas de IA.
Los modelos Ovis 2.5 de Alibaba representan un avance significativo en la IA multimodal de código abierto. Al integrar un transformador de visión de resolución nativa y un innovador “modo de pensamiento” para un razonamiento más profundo, Ovis 2.5 no solo logra resultados de vanguardia en puntos de referencia críticos, sino que también reduce la brecha de rendimiento con las soluciones de IA propietarias. Su enfoque en la eficiencia y la accesibilidad garantiza que la comprensión multimodal avanzada esté al alcance tanto de investigadores de vanguardia como de aplicaciones prácticas y con recursos limitados.