GPT-5s Vision: Wegweisendes VLM, nicht neuer SOTA
OpenAIs mit Spannung erwartetes GPT-5 wurde kürzlich einer strengen Bewertung seiner Seh- und visuellen Schlussfolgerungsfähigkeiten unterzogen, wobei Forscher von Roboflow das neue Modell auf Herz und Nieren prüften. Während GPT-5 beachtliche Fortschritte im allgemeinen visuellen Verständnis zeigt, deutet die erste Einschätzung darauf hin, dass seine Leistung bei visuellen Erkennungs- und Lokalisierungsaufgaben eng mit den derzeit besten verfügbaren Modellen übereinstimmt, anstatt einen neuen Stand der Technik zu etablieren. Interessanterweise ergab die Bewertung, dass GPT-5-Mini identische Vision-Scores wie sein größeres Gegenstück erzielte, ein Beweis für das, was die Evaluatoren als effektiven Modellrouter bezeichnen, der am Werk ist.
Die Integration eines robusten visuellen Verständnisses in große Sprachmodelle (LLMs) war lange Zeit ein erhebliches Hindernis. Viele Modelle kämpfen immer noch mit scheinbar einfachen Aufgaben, wie dem genauen Zählen spezifischer Objekte auf einem Foto oder dem präzisen Identifizieren des Standorts von Elementen innerhalb eines Bildes. Doch die Fähigkeit von LLMs, die reale Welt in Echtzeit zu interpretieren und mit ihr zu interagieren, gilt als entscheidender Durchbruch, der den Weg für autonome Robotik, intuitivere Mensch-Computer-Interaktion und das Potenzial für personalisierte Superintelligenz ebnet.
Die aktuelle Landschaft der Vision-Language-Modelle (VLMs) umfasst Angebote von großen Akteuren wie OpenAI (GPT- und „o“-Serien), Google (Gemini), Anthropic (Claude) und Meta (Llama). Diese Modelle weisen unterschiedliche Stärken und Schwächen bei verschiedenen visuellen Aufgaben auf. Im Allgemeinen schneiden sie bei einfachen Herausforderungen gut ab, wie dem Lesen von Text von Schildern, Quittungen oder CAPTCHAs und dem Verständnis von Farben. Komplexere Anforderungen – einschließlich präzisem Zählen, räumlichem Verständnis, detaillierter Objekterkennung und umfassender Dokumentenanalyse – offenbaren jedoch erhebliche Leistungsschwankungen, insbesondere wenn den zugrunde liegenden Vortrainingsdaten möglicherweise nicht genügend Beispiele für diese spezifischen Szenarien fehlen.
Um die Herausforderungen des Leistungsvergleichs über verschiedene Aufgaben hinweg zu bewältigen, hat Roboflow Vision Checkup eingeführt, eine Open-Source-Evaluierungs-Bestenliste, die entwickelt wurde, um die „Hard Task Frontier Performance“ zu bewerten. OpenAI-Modelle dominieren diese Bestenliste durchweg, wobei GPT-5 nun einen Platz unter den Top Fünf einnimmt. Diese starke Leistung wird hauptsächlich den fortschrittlichen Schlussfolgerungsfähigkeiten der Modelle zugeschrieben, die während ihres umfangreichen Vortrainings entwickelt und während der Tests verfeinert wurden. Dies markiert eine entscheidende Entwicklung bei multimodalen LLMs: die verbesserte Fähigkeit, sowohl über textliche als auch visuelle Informationen hinweg zu schließen. Dennoch können die Ergebnisse aufgrund der nicht-deterministischen Natur von Schlussfolgerungsmodellen schwanken, wobei dieselbe Aufforderung unterschiedliche Antworten liefern kann. Darüber hinaus stößt der reale Einsatz von Bildschlussfolgerungen auf praktische Einschränkungen, da die Verarbeitung eines Bildes über 10 Sekunden dauern kann und die Variabilität der Antworten sie für Echtzeitanwendungen schwer nutzbar macht. Entwickler stehen oft vor einem Kompromiss zwischen Geschwindigkeit und umfassender Funktionalität und entscheiden sich manchmal für schnellere, stärker fokussierte Modelle.
Um über allgemeine „Vibe Checks“ hinauszugehen und eine strengere Bewertung der tatsächlichen Weltverständnisfähigkeit von LLMs zu ermöglichen, stellte Roboflow auf der diesjährigen CVPR-Konferenz einen neuen Benchmark vor: RF100-VL. Dieser Benchmark umfasst 100 Open-Source-Datensätze mit Objekt-Erkennungs-Begrenzungsrahmen, multimodalen Few-Shot-Anweisungen, visuellen Beispielen und reichhaltigen Textbeschreibungen über neuartige Bilddomänen hinweg. Bei RF100-VL erzielten Top-LLMs im Allgemeinen Werte unter 10 auf der mAP50:95-Metrik, einem Schlüsselmaß für die Genauigkeit der Objekterkennung. Googles Gemini 2.5 Pro führt derzeit das Feld unter den LLMs an und erreicht einen Zero-Shot mAP50:95 von 13,3.
Im krassen Gegensatz dazu erreichte GPT-5 auf dem RF100-VL-Benchmark lediglich einen mAP50:95-Score von 1,5. Diese signifikante Disparität ist größtenteils auf den offensichtlichen Mangel an objekterkennungsspezifischen Daten in GPT-5s Vortraining zurückzuführen. Zum Beispiel zeigte GPT-5 in einer Bewertung, die einen Volleyball-Datensatz umfasste, ein klares Verständnis des Bildinhalts, indem es einen Ball, Blocker und Verteidiger korrekt identifizierte. Es scheiterte jedoch durchweg daran, diese Objekte genau zu lokalisieren, wobei die Begrenzungsrahmen oft falsch ausgerichtet oder falsch dimensioniert waren. Dieses Muster, das auch in anderen Datensätzen wie einem mit Schafen beobachtet wurde, deutet darauf hin, dass das Modell zwar die visuelle Szene versteht, aber Schwierigkeiten hat, spezifische Objekte darin zu „verankern“ – eine direkte Folge unzureichenden Objekterkennungs-Vortrainings. Ähnlich zeigte GPT-5 keine signifikante Qualitätsverbesserung, wenn es auf UI-Element-Datensätzen bewertet wurde.
Während GPT-5 für einfachere visuelle Aufgaben eine leichte Verbesserung gegenüber früheren OpenAI-Modellen wie GPT-4o darstellt und von detaillierteren Anweisungen profitiert, hebt seine Leistung auf dem RF100-VL einen kritischen Unterschied hervor: Verständnis ist nicht gleich präziser Lokalisierung. Die verbesserten Schlussfolgerungsfähigkeiten, die GPT-5 an die Spitze der Vision Checkup-Bestenliste bringen, führen nicht zu einer besseren Objekterkennung auf RF100-VL, selbst wenn der „Schlussfolgerungsaufwand“ erhöht wird. Dies unterstreicht einen klaren Weg für Vision-Language-Modelle: Die nächste Generation muss visuelle Informationen nicht nur tiefer verarbeiten, sondern auch Objekte im realen Kontext genau lokalisieren und verstehen, um über abstraktes Verständnis hinaus zu einem greifbaren, lokalisierten Verständnis zu gelangen.