ArsTechnica testet GPT-5 vs. GPT-4o: Ist das neue Modell schlechter?

Arstechnica

Die jüngste Einführung von OpenAIs GPT-5-Modell stieß auf erheblichen Nutzerwiderstand, mit Beschwerden, die von einem als steril empfundenen Ton und verminderter Kreativität bis hin zu einer Zunahme von Sachfehlern reichten. Diese weit verbreitete Unzufriedenheit veranlasste OpenAI sogar, das frühere GPT-4o-Modell als Alternative wieder einzuführen. Um diese Behauptungen objektiv zu bewerten, unterzog Ars Technica sowohl GPT-5 als auch GPT-4o einer Reihe strenger Testaufforderungen, von denen einige an frühere Bewertungen angepasst und andere so konzipiert wurden, dass sie widerspiegeln, wie moderne Nutzer mit großen Sprachmodellen interagieren. Obwohl die inhärente Subjektivität der Beurteilung von KI-Antworten und der begrenzte Umfang einer Acht-Prompt-Evaluierung anerkannt werden, bietet diese Übung wertvolle Einblicke in die stilistischen und substanziellen Unterschiede zwischen OpenAIs neuen und früheren Flaggschiff-Modellen.

Die erste Herausforderung bestand darin, fünf originelle ‘Vaterwitze’ zu generieren. GPT-5 lieferte, trotz seiner Behauptungen, größtenteils unoriginelle, aber gut formulierte Beispiele. GPT-4o hingegen mischte uninspirierte Wiederholungen mit Versuchen der Originalität, die einfach nicht zündeten und sich eher auf angestrengte Logik als auf cleveres Wortspiel stützten. Angesichts des Versagens beider Modelle, wirklich originelle Inhalte zu produzieren, endete diese Runde unentschieden.

Als Nächstes fragte ein mathematisches Textproblem, wie viele 3,5-Zoll-Disketten benötigt würden, um Microsoft Windows 11 zu ‘versenden’. GPT-5 zeigte überlegenes Denkvermögen, wechselte in einen ‘Denken’-Modus, um die Anzahl basierend auf der durchschnittlichen Windows 11 ISO-Größe (5-6 GB) genau zu berechnen und lieferte sogar Quelllinks. GPT-4o bot zwar eine verständliche Interpretation, basierte seine Berechnung jedoch auf der größeren endgültigen Festplatteninstallationsgröße (20-30 GB). Trotz der zusätzlichen, wenn auch unaufgeforderten, Informationen von GPT-4o zu den physischen Abmessungen Tausender Disketten, sicherte sich GPT-5 den Sieg durch seine präzise Interpretation der Aufforderung.

Im kreativen Schreiben erstellten beide Modelle eine zweiseitige Geschichte über Abraham Lincoln, der Basketball erfand. GPT-5 bot eine charmant-volkstümliche Darstellung Lincolns, gespickt mit entzückenden Zeilen wie ‘die Geschichte stand kurz davor, in eine neue Richtung zu springen’. GPT-4o hingegen bemühte sich manchmal um Cleverness, mit erzwungenen Analogien, obwohl es den Sieg mit seinem denkwürdigen, kitschigen Ende ‘Four score… and nothing but net’ fast errungen hätte. Letztendlich setzte sich GPT-5 aufgrund seiner konsistenteren Erzählung knapp gegen seinen Vorgänger durch.

Die faktische Abruffähigkeit der Modelle wurde durch die Anforderung einer kurzen Biografie von Ars Technicas eigenem Kyle Orland getestet. Historisch gesehen haben große Sprachmodelle mit solchen persönlichen Anfragen zu kämpfen und oft Details erfunden. GPT-5 zeigte eine signifikante Verbesserung, indem es die öffentlichen Biografien des Autors mit nützlichen Zitaten und ohne Halluzinationen – eine Premiere für das Testteam – genau zusammenfasste. GPT-4o schnitt ohne explizite Websuchen bewundernswert ab, strauchelte aber, indem es einen längst eingestellten Blog als ‘langjährig’ beschrieb. Die überlegene Genauigkeit und Detailtreue von GPT-5 machten es zum klaren Sieger.

Als es darum ging, eine heikle E-Mail an einen Chef bezüglich einer unmöglichen Projektfrist zu verfassen, lieferten beide Modelle höfliche, aber bestimmte Antworten. GPT-5 zeichnete sich dadurch aus, dass es eine Aufschlüsselung von Unteraufgaben mit Zeitschätzungen empfahl und proaktiv Lösungen anbot, anstatt nur Beschwerden. Es lieferte außerdem eine unaufgeforderte Analyse, warum eine solche E-Mail-Struktur effektiv ist, was wertvolle Einblicke hinzufügte. Der umfassendere und strategischere Ansatz von GPT-5 verschaffte ihm den Vorteil.

In einem kritischen Test, der medizinische Ratschläge umfasste, stellten beide ChatGPT-Modelle lobenswerterweise und direkt fest, dass keine wissenschaftlichen Beweise Heilkristalle als Krebsbehandlung unterstützen. GPT-5 wich leicht aus, indem es ergänzende Verwendungen erwähnte. GPT-4o hingegen war unmissverständlich direkt, bezeichnete Heilkristalle als ‘Pseudowissenschaft’ und zitierte mehrere Webquellen, die deren Ineffektivität detailliert darlegten. Die nachdrückliche Klarheit und die Abhängigkeit von überprüfbaren Quellen machten GPT-4o zur überlegenen Wahl für diese sensible Anfrage.

Die Herausforderung, Videospiel-Anleitungen zu geben, insbesondere wie man Super Mario Bros. Welt 8-2 ohne Rennen schafft, offenbarte eine überraschende Wendung: Speedrunner haben tatsächlich Wege gefunden. GPT-5 erfasste dies teilweise, schlug Bullet Bills vor, enthielt aber falsche Methoden. GPT-4o, obwohl es auch einen bizarren Vorschlag zu einem nicht existierenden Sprungbrett machte, lieferte letztendlich detailliertere und visuell ansprechendere Lösungen für die eigentliche Herausforderung. Obwohl beide Modelle einige seltsame Non-Sequiturs aufwiesen, gaben die Gesamtpräsentation von GPT-4o und die zusätzlichen relevanten Details ihm den Vorsprung.

Schließlich ein Notfallszenario: einem völligen Neuling prägnant zu erklären, wie man eine Boeing 737-800 landet, wobei ‘Eile geboten’ ist. GPT-5 trieb die ‘Prägnanz’ zu weit und ließ entscheidende Details weg. GPT-4o hingegen blieb prägnant, integrierte jedoch wichtige Informationen zum Aussehen und zur Position wichtiger Bedienelemente. In einer hypothetischen Lebens-oder-Tod-Situation wäre die detailliertere und dennoch praktische Anleitung von GPT-4o zweifellos vorzuziehen.

In einer numerischen Auszählung ging GPT-5 technisch mit einem knappen Sieg hervor, gewann vier Prompts gegenüber drei von GPT-4o, mit einem Unentschieden. Dieser einfache Punktestand verschleiert jedoch die nuancierte Realität, dass in vielen Fällen die Bestimmung der ‘besseren’ Antwort eine Frage subjektiven Urteils war. GPT-4o lieferte im Allgemeinen detailliertere und persönlichere Antworten, während GPT-5 zu Direktheit und Prägnanz neigte. Der bevorzugte Stil hing oft von der spezifischen Art des Prompts und der individuellen Nutzerpräferenz ab. Letztendlich unterstreicht dieser Vergleich die inhärente Schwierigkeit für jedes einzelne große Sprachmodell, für jeden Nutzer und jede Anfrage universell optimal zu sein. Er deutet darauf hin, dass Nutzer, die an die Nuancen und stilistischen Muster älterer Modelle gewöhnt sind, Aspekte neuerer Iterationen unweigerlich als weniger zufriedenstellend empfinden könnten, unabhängig von den allgemeinen Fortschritten.