Alibaba Ovis 2.5: Open-Source Multimodales LLM – Ein Durchbruch

Marktechpost

Das AIDC-AI-Team von Alibaba hat Ovis 2.5, sein neuestes großes multimodales Sprachmodell (MLLM), vorgestellt und damit in der Open-Source-Gemeinschaft für künstliche Intelligenz für Aufsehen gesorgt. Ovis 2.5 ist in Versionen mit 9 Milliarden und 2 Milliarden Parametern verfügbar und führt entscheidende technische Fortschritte ein, die die Leistungs- und Effizienzmaßstäbe für MLLMs neu definieren, insbesondere bei der Verarbeitung hochdetaillierter visueller Informationen und komplexer Denkaufgaben, die das Feld lange herausgefordert haben.

Ein Eckpfeiler der Innovation von Ovis 2.5 liegt in seinem nativen Auflösungs-Vision-Transformator (NaViT). Dieser ermöglicht es dem Modell, Bilder in ihrer ursprünglichen, variierenden Auflösung zu verarbeiten, eine deutliche Abkehr von früheren Ansätzen, die oft auf Kachelung oder erzwungene Größenänderung angewiesen waren. Solche älteren Methoden führten häufig zum Verlust wichtiger globaler Kontexte und komplizierter Details. Durch die Bewahrung der vollständigen Integrität sowohl komplexer Diagramme als auch natürlicher Bilder ermöglicht NaViT Ovis 2.5, bei visuell dichten Aufgaben hervorragende Leistungen zu erbringen, von der Interpretation wissenschaftlicher Diagramme bis zur Analyse aufwendiger Infografiken und Formulare.

Über die verbesserte visuelle Wahrnehmung hinaus bewältigt Ovis 2.5 die Komplexität des Denkens mit einem ausgeklügelten Trainingscurriculum. Dies geht über die Standard-Chain-of-Thought-Supervision hinaus, indem “Denkstil”-Samples integriert werden, die für Selbstkorrektur und Reflexion konzipiert sind. Der Höhepunkt dieses Ansatzes ist ein optionaler “Denkmodus” zur Inferenzzeit. Während die Aktivierung dieses Modus die Reaktionsgeschwindigkeit etwas beeinträchtigen kann, erhöht er die Schritt-für-Schritt-Genauigkeit erheblich und ermöglicht eine tiefere Modell-Introspektion, was sich als besonders vorteilhaft für Aufgaben erweist, die eine tiefgreifende multimodale Analyse erfordern, wie z.B. wissenschaftliche Fragenbeantwortung oder komplexe mathematische Problemlösung.

Die Fähigkeiten von Ovis 2.5 spiegeln sich in seinen beeindruckenden Benchmark-Ergebnissen wider. Das größere Modell Ovis 2.5-9B erreichte auf der OpenCompass Multimodal-Bestenliste eine Durchschnittspunktzahl von 78,3 und positioniert es damit als führenden Kandidaten unter allen Open-Source-MLLMs unter 40 Milliarden Parametern. Sein kompakterer Bruder, Ovis 2.5-2B, setzte ebenfalls einen neuen Standard für leichte Modelle mit einer Punktzahl von 73,9, was ihn zu einem idealen Kandidaten für On-Device- oder ressourcenbeschränkte Anwendungen macht. Beide Modelle zeigen außergewöhnliche Leistungen in spezialisierten Bereichen und übertreffen Open-Source-Konkurrenten in Bereichen wie STEM-Reasoning (validiert auf Datensätzen wie MathVista, MMMU und WeMath), optischer Zeichenerkennung (OCR) und Diagrammanalyse (wie in OCRBench v2 und ChartQA Pro zu sehen), visueller Verankerung (RefCOCO, RefCOCOg) und umfassendem Video- und Multi-Bild-Verständnis (BLINK, VideoMME). Online-Diskussionen unter KI-Entwicklern lobten insbesondere die Fortschritte bei OCR und Dokumentenverarbeitung und hoben die verbesserte Fähigkeit des Modells hervor, Text aus überladenen Bildern zu extrahieren, komplexe Formulare zu verstehen und vielfältige visuelle Anfragen flexibel zu bearbeiten.

Effizienz ist ein weiteres Markenzeichen von Ovis 2.5. Die Modelle optimieren das End-to-End-Training durch Techniken wie multimodales Daten-Packing und fortschrittliche hybride Parallelisierung, was eine bis zu drei- oder sogar vierfache Beschleunigung des Gesamtdurchsatzes ermöglicht. Darüber hinaus verkörpert die leichte 2-Milliarden-Parameter-Variante eine “kleines Modell, große Leistung”-Philosophie, die hochwertiges multimodales Verständnis auf mobile Hardware und Edge-Geräte erweitert und somit den Zugang zu fortschrittlichen KI-Fähigkeiten demokratisiert.

Alibaba’s Ovis 2.5 Modelle stellen einen bedeutenden Fortschritt in der Open-Source-multimodalen KI dar. Durch die Integration eines nativen Auflösungs-Vision-Transformators und eines innovativen “Denkmodus” für tieferes Denken erzielt Ovis 2.5 nicht nur modernste Ergebnisse bei kritischen Benchmarks, sondern verringert auch den Leistungsunterschied zu proprietären KI-Lösungen. Sein Fokus auf Effizienz und Zugänglichkeit stellt sicher, dass fortgeschrittenes multimodales Verständnis sowohl für Spitzenforscher als auch für praktische, ressourcenbeschränkte Anwendungen erreichbar ist.