Grok 4 schlägt GPT-5 in ARC-AGI, aber zu höheren Kosten

Decoder

In einer bemerkenswerten Entwicklung auf dem hart umkämpften Gebiet der künstlichen Intelligenz hat Grok 4 von xAI Berichten zufolge OpenAI’s GPT-5 im anspruchsvollen ARC-AGI-2-Benchmark übertroffen, einem Test, der speziell zur Bewertung der allgemeinen Denkfähigkeiten eines Modells und nicht nur des reinen Auswendiglernens entwickelt wurde. Dieser unerwartete Vorsprung von Grok 4 ist jedoch mit einem erheblichen Vorbehalt verbunden: wesentlich höhere Betriebskosten, was die komplexen Kompromisse unterstreicht, die in der neuesten Generation großer Sprachmodelle entstehen.

Laut Daten, die von ARC Prize, der Organisation hinter dem Benchmark, veröffentlicht wurden, erreichte die „Thinking“-Variante von Grok 4 eine Genauigkeitsrate von etwa 16 Prozent im ARC-AGI-2. Obwohl diese Leistung beeindruckend ist, verursachte sie Kosten zwischen 2 und 4 US-Dollar pro Aufgabe. Im Gegensatz dazu erwies sich OpenAIs Flaggschiffmodell GPT-5 „High“, obwohl es mit einem Genauigkeitswert von 9,9 Prozent zurücklag, mit nur 0,73 US-Dollar pro Aufgabe als weitaus kosteneffizienter. Die ARC-AGI-Benchmarks sind akribisch darauf ausgelegt, echtes Denken über reines Faktenwissen zu stellen, indem sie Modelle nicht nur nach ihrer Fähigkeit, Probleme zu lösen, sondern auch nach der wirtschaftlichen Tragfähigkeit ihrer Lösungen bewerten.

Die Erzählung verschob sich leicht beim weniger anspruchsvollen ARC-AGI-1-Test. Hier behielt Grok 4 einen Vorsprung und erreichte etwa 68 Prozent Genauigkeit, dicht gefolgt von GPT-5 mit 65,7 Prozent. Doch wieder war die wirtschaftliche Disparität ausgeprägt: Grok 4 verlangte etwa 1 US-Dollar pro Aufgabe, während GPT-5 eine vergleichbare Leistung für nur 0,51 US-Dollar lieferte. Dieser starke Preisunterschied positioniert GPT-5 derzeit als die attraktivere Option für Anwendungen, bei denen Kosteneffizienz an erster Stelle steht, obwohl xAI seine Preisstrategie potenziell neu kalibrieren könnte, um diese Lücke zu schließen.

Über diese Top-Modelle hinaus beleuchtete der Benchmark auch die Leistung leichterer, wirtschaftlicherer Varianten. OpenAIs GPT-5 Mini erreichte beispielsweise 54,3 Prozent im ARC-AGI-1 zu Kosten von nur 0,12 US-Dollar und 4,4 Prozent im ARC-AGI-2 für 0,20 US-Dollar. Das noch kompaktere GPT-5 Nano zeigte sein Ultra-Niedrigkostenpotenzial und erzielte 16,5 Prozent im ARC-AGI-1 und 2,5 Prozent im ARC-AGI-2, beides zu einem außergewöhnlich niedrigen Preis von 0,03 US-Dollar pro Aufgabe. Diese kleineren Modelle unterstreichen den Vorstoß der Branche hin zu diversifizierten Angeboten, die ein Spektrum an Leistungs- und Budgetanforderungen abdecken.

Blick in die Zukunft hat ARC Prize bestätigt, dass vorläufige, inoffizielle Bewertungen für den interaktiven ARC-AGI-3-Benchmark bereits im Gange sind. Dieser innovative Test fordert Modelle heraus, Aufgaben durch iteratives Ausprobieren in einer spielähnlichen Umgebung zu lösen. Während diese visuellen Puzzlespiele für Menschen oft intuitiv zu navigieren und zu lösen sind, kämpfen die meisten künstlichen Intelligenz-Agenten weiterhin, was die erheblichen Hürden unterstreicht, die noch bestehen, um wirklich menschenähnliche kognitive Flexibilität und adaptive Problemlösung zu erreichen.

Es ist entscheidend, Grok 4s starke Leistung in diesen spezifischen Benchmarks zu kontextualisieren. Obwohl beeindruckend, etabliert sie es nicht einseitig als das überlegene Modell für alle KI-Anwendungen, insbesondere angesichts der laufenden Prüfung von Benchmark-Methoden und Wettbewerbspraktiken. Interessanterweise ließ OpenAI während seiner jüngsten GPT-5-Präsentation jegliche Erwähnung des ARC Prize auffallend aus, eine Abweichung von seiner früheren Praxis, bei der solche Benchmarks oft bei der Einführung neuer Modelle hervorgehoben wurden.

Eine weitere Komplikation der Wettbewerbslandschaft ist der kuriose Fall des o3-preview-Modells. Diese OpenAI-Variante, die im Dezember 2024 eingeführt wurde, behält immer noch die höchste Punktzahl im ARC-AGI-1-Test mit einem beträchtlichen Vorsprung und erreicht fast 80 Prozent Genauigkeit, wenn auch zu deutlich höheren Kosten als ihre Konkurrenten. Berichte deuteten darauf hin, dass OpenAI gezwungen war, erhebliche Reduzierungen an o3-preview für seine spätere, öffentlich freigegebene Chat-Version vorzunehmen. Diese Behauptung wurde später von ARC Prize selbst bestätigt, das die verminderte Leistung des öffentlich verfügbaren o3-Modells Ende April bestätigte, was Fragen zu den Kompromissen zwischen Rohleistung, Kosten und öffentlicher Bereitstellungsstrategie aufwirft.

Die neuesten ARC-AGI-Ergebnisse zeichnen ein lebendiges Bild eines sich schnell entwickelnden KI-Ökosystems, in dem Durchbrüche oft von komplexen Kompromissen begleitet werden. Während Grok 4 in bestimmten Denkaufgaben einen unbestreitbaren Vorteil gezeigt hat, behält GPT-5 einen überzeugenden Vorsprung bei der Kosteneffizienz und bietet eine breitere Palette von Modellen, die für verschiedene Anwendungen maßgeschneidert sind. Der Wettbewerb zwischen führenden KI-Entwicklern bleibt hart und verschiebt die Grenzen dessen, was diese leistungsstarken Systeme erreichen können, auch wenn grundlegende Herausforderungen im adaptiven Denken bestehen bleiben.