OpenAI's o3 schlägt unerwartet GPT-5 bei komplexen Büroaufgaben

Decoder

Ein neuer Benchmark, der die Grenzen der künstlichen Intelligenz in realen Büroumgebungen erweitern soll, hat überraschende Ergebnisse geliefert: OpenAIs etabliertes o3-Modell übertraf durchweg sein neueres GPT-5-Pendant bei komplexen, Multi-Anwendungs-Aufgaben. Dieses Ergebnis, basierend auf dem kürzlich eingeführten OdysseyBench, deutet darauf hin, dass der Fortschritt bei den Fähigkeiten von KI-Agenten für komplizierte, lang andauernde Workflows sich auf unerwartete Weise entwickeln könnte.

OdysseyBench wurde von Forschern bei Microsoft und der University of Edinburgh entwickelt und zielt darauf ab, über isolierte „atomare Aufgaben“ – einfache, einstufige Befehle – hinauszugehen, um zu bewerten, wie KI-Modelle Szenarien bewältigen, die sich über mehrere Tage erstrecken und echte Büroarbeit nachahmen. Der Benchmark umfasst 602 Aufgaben, die beliebte Anwendungen wie Word, Excel, PDF, E-Mail und Kalender-Tools umfassen. Diese Aufgaben sind in zwei Hauptkategorien unterteilt: 300 realistische Szenarien, die von OfficeBench abgeleitet wurden, genannt OdysseyBench+, und 302 neu konstruierte, außergewöhnlich herausfordernde Situationen, bekannt als OdysseyBench-Neo. Beide Abschnitte erfordern, dass die Modelle Informationen aus mehrtägigen Gesprächen extrahieren, mehrstufige Pläne formulieren und Aktionen über verschiedene Büro-Tools hinweg synchronisieren.

Die primäre Herausforderung für diese KI-Agenten liegt in der Lösung langfristiger, dialoggesteuerter Büroaufgaben. Sowohl bei OdysseyBench+ als auch bei OdysseyBench-Neo erwies sich OpenAIs o3-Modell durchweg als führend gegenüber GPT-5. Bei OdysseyBench-Neo, das die anspruchsvollsten, handgefertigten Aufgaben enthält, erreichte o3 eine Erfolgsquote von 61,26%, was GPT-5s 55,96% und GPT-5-chats 57,62% deutlich übertraf. Die Leistungslücke vergrößerte sich weiter bei Aufgaben, die die gleichzeitige Nutzung von drei Anwendungen erforderten, wo o3 59,06% erzielte, verglichen mit GPT-5s 53,80%.

Die Ergebnisse auf OdysseyBench+ spiegelten diesen Trend wider. Hier erzielte o3 56,2%, womit es GPT-5 mit 54,0% und GPT-5-chat mit 40,3% übertraf. Die Disparität wurde bei Aufgaben, die die Koordination von zwei oder drei Anwendungen erforderten, noch ausgeprägter, da hier das kontextuelle Verständnis und die akribische Planung von größter Bedeutung sind. Interessanterweise übertraf GPT-5-chat unerwartet GPT-5 auf OdysseyBench-Neo. Forscher führen dies auf den Fokus der Neo-Aufgaben auf dialogbasierte Unterstützung zurück, was mit den Konversationsstärken von GPT-5-chat übereinstimmt. Umgekehrt enthält OdysseyBench+ fragmentiertere, weniger konversationsorientierte Szenarien, in denen das auf logisches Denken fokussierte GPT-5 eine bessere Fähigkeit zeigte, relevante Informationen aus unzusammenhängenden Eingaben zu extrahieren. Es ist erwähnenswert, dass die Studie die Denk-Einstellungen für GPT-5, wie seine „Denkzeit“ oder spezifische Agentenparameter, nicht spezifizierte, noch wurde ein fortschrittlicheres GPT-5 Pro-Modell in die Bewertung einbezogen.

Diese Ergebnisse haben erhebliche Auswirkungen, insbesondere da OpenAI aktiv die Entwicklung von KI-Agenten vorantreibt, die in der Lage sind, stunden- oder sogar tagelang zu „denken“, mit dem Endziel, neuartige Ideen zu generieren und die Forschung in Bereichen wie Medizin und KI-Sicherheit zu automatisieren. OdysseyBench könnte sich als entscheidender Benchmark für diese jungen Langzeit-Systeme erweisen. Gleichzeitig unterstreichen die Ergebnisse subtil eine mögliche Verlangsamung des Fortschrittstempos: Während sowohl o3 als auch GPT-5 klare Fortschritte gegenüber früheren Modellen darstellen, gibt es keinen erkennbaren Leistungssprung von o3 zu GPT-5, insbesondere da o3 erst im April offiziell veröffentlicht wurde.

Eine genauere Untersuchung der Benchmark-Ergebnisse zeigt mehrere anhaltende Herausforderungen für aktuelle KI-Agenten in komplexen Workflows. Modelle übersehen häufig kritische Dateien, überspringen notwendige Schritte oder versuchen, die falschen Tools für eine bestimmte Aufgabe zu verwenden. Zum Beispiel versuchten einige Agenten, PDF-Dateien zu generieren, bevor sie den Originaltext in Word erstellten, oder konnten Inhalte aus PDFs nicht extrahieren, bevor sie ein Überprüfungsdokument entwarfen. Aufgaben, die das Erstellen oder Bearbeiten von DOCX- und XLSX-Dateien umfassten, erwiesen sich als besonders fehleranfällig und erforderten eine präzise, mehrstufige Koordination – ein Bereich, in dem die Agenten durchweg Schwierigkeiten hatten. Forscher kommen zu dem Schluss, dass diese Probleme auf eine umfassendere, grundlegende Herausforderung hinweisen: Die heutigen KI-Agenten kämpfen immer noch mit der präzisen, mehrstufigen Planung, die erforderlich ist, um Aufgaben zu bewältigen, die verschiedene Tools, Zeitrahmen und Kontexte umfassen. Für Interessenten, die tiefer eintauchen möchten, sind das OdysseyBench- und HOMERAGENTS-Framework auf GitHub öffentlich verfügbar.