Ovis 2.5 d'Alibaba : Une Révolution Open Source pour les LLM Multimodaux

Marktechpost

L’équipe AIDC-AI d’Alibaba a dévoilé Ovis 2.5, son dernier grand modèle de langage multimodal (MLLM), faisant une entrée remarquée dans la communauté de l’intelligence artificielle open source. Disponible en versions de 9 milliards et 2 milliards de paramètres, Ovis 2.5 introduit des avancées techniques essentielles qui redéfinissent les repères de performance et d’efficacité pour les MLLM, en particulier dans la gestion des informations visuelles très détaillées et des tâches de raisonnement complexes qui ont longtemps défié le domaine.

La pierre angulaire de l’innovation d’Ovis 2.5 réside dans son transformateur de vision à résolution native (NaViT). Cela permet au modèle de traiter les images à leurs résolutions originales et variables, une rupture nette avec les approches précédentes qui reposaient souvent sur le découpage en tuiles ou le redimensionnement forcé. Ces méthodes plus anciennes entraînaient fréquemment la perte de contexte global vital et de détails complexes. En préservant l’intégrité totale des graphiques complexes et des images naturelles, NaViT permet à Ovis 2.5 d’exceller dans les tâches visuellement denses, de l’interprétation de diagrammes scientifiques à l’analyse d’infographies et de formulaires élaborés.

Au-delà de la perception visuelle améliorée, Ovis 2.5 aborde les subtilités du raisonnement avec un programme de formation sophistiqué. Cela va au-delà de la supervision standard de chaîne de pensée en incorporant des échantillons de “style de pensée” conçus pour l’autocorrection et la réflexion. L’aboutissement de cette approche est un “mode de pensée” optionnel au moment de l’inférence. Bien que l’activation de ce mode puisse sacrifier une certaine vitesse de réponse, elle augmente considérablement la précision étape par étape et permet une introspection plus profonde du modèle, s’avérant particulièrement avantageuse pour les tâches exigeant une analyse multimodale approfondie, telles que la réponse à des questions scientifiques ou la résolution de problèmes mathématiques complexes.

Les capacités d’Ovis 2.5 se reflètent dans ses impressionnants résultats de référence. Le modèle plus grand Ovis 2.5-9B a obtenu un score moyen de 78,3 sur le classement multimodal OpenCompass, le positionnant comme un concurrent de premier plan parmi tous les MLLM open source de moins de 40 milliards de paramètres. Son homologue plus compact, Ovis 2.5-2B, a également établi une nouvelle norme pour les modèles légers, avec un score de 73,9, ce qui en fait un candidat idéal pour les applications embarquées ou à ressources limitées. Les deux modèles démontrent des performances exceptionnelles dans des domaines spécialisés, surpassant les concurrents open source dans des domaines tels que le raisonnement STEM (validé sur des ensembles de données tels que MathVista, MMMU et WeMath), la reconnaissance optique de caractères (OCR) et l’analyse de graphiques (comme vu sur OCRBench v2 et ChartQA Pro), l’ancrage visuel (RefCOCO, RefCOCOg), et la compréhension complète de vidéos et d’images multiples (BLINK, VideoMME). Les discussions en ligne parmi les développeurs d’IA ont particulièrement salué les avancées en matière d’OCR et de traitement de documents, soulignant la capacité améliorée du modèle à extraire du texte d’images encombrées, à comprendre des formulaires complexes et à gérer diverses requêtes visuelles avec flexibilité.

L’efficacité est une autre caractéristique d’Ovis 2.5. Les modèles optimisent l’entraînement de bout en bout grâce à des techniques telles que le regroupement de données multimodales et le parallélisme hybride avancé, ce qui permet d’obtenir une accélération globale du débit jusqu’à trois, voire quatre fois. De plus, la variante légère de 2 milliards de paramètres incarne une philosophie de “petit modèle, grandes performances”, étendant la compréhension multimodale de haute qualité au matériel mobile et aux appareils de périphérie, démocratisant ainsi l’accès aux capacités d’IA avancées.

Les modèles Ovis 2.5 d’Alibaba représentent un pas en avant significatif dans l’IA multimodale open source. En intégrant un transformateur de vision à résolution native et un “mode de pensée” innovant pour un raisonnement plus profond, Ovis 2.5 obtient non seulement des résultats de pointe sur les benchmarks critiques, mais réduit également l’écart de performance avec les solutions d’IA propriétaires. Son accent sur l’efficacité et l’accessibilité garantit que la compréhension multimodale avancée est à la portée des chercheurs de pointe et des applications pratiques à ressources limitées.