GPT-5: KI-Steinzeit & AGI-Fortschritt neu definiert

Latent

OpenAIs mit Spannung erwartetes GPT-5 ist nach fast zweijähriger Branchenspekulation endlich da. Als Early-Access-Partner hatten wir die Gelegenheit, dieses neue Modell ausgiebig in einer Vielzahl von Anwendungen zu testen, von unserer eigenen Plattform Raindrop.ai bis hin zu Entwicklungsumgebungen wie Cursor und Codex. Unser übergeordneter Eindruck? GPT-5 stellt einen tiefgreifenden Sprung in Richtung Künstliche Allgemeine Intelligenz (AGI) dar, insbesondere im Bereich des Software-Engineerings, wo es eine außergewöhnliche Fähigkeit zeigt, komplexe Anwendungen zu bewältigen und komplizierte Probleme innerhalb riesiger Codebasen oft in einem einzigen Versuch zu lösen.

Allerdings ist die Darstellung nicht so einfach, dass es durchweg “besser” wäre. Überraschenderweise schneidet GPT-5 beim Schreiben schlechter ab als seine Vorgänger, GPT-4.5 und sogar GPT-4o. Bei vielen gängigen Aufgaben wird es den Benutzern nicht sofort als Supergenie erscheinen. Diese scheinbaren Mängel beleuchten paradoxerweise eine grundlegende Verschiebung auf dem Weg zur AGI. Um dies zu verstehen, müssen wir einen Blick zurück in die Steinzeit werfen.

Was definiert den Beginn der menschlichen Intelligenz? Es war nicht das Gewinnen einer Schachpartie oder das Beweisen eines komplexen Theorems. Die Steinzeit ist deutlich durch eine entscheidende Entwicklung gekennzeichnet: Der Mensch lernte, Werkzeuge zu benutzen. Wir formten Werkzeuge, und unsere Werkzeuge formten uns wiederum, was unsere kognitiven Fähigkeiten grundlegend veränderte. Menschliche Intelligenz manifestiert sich im Kern durch Werkzeuge und wird durch sie erweitert. GPT-5 läutet eine neue Steinzeit für KI-Agenten und große Sprachmodelle ein. Dieses Modell benutzt Werkzeuge nicht nur; es denkt mit ihnen und baut mit ihnen.

Betrachten Sie OpenAIs “Deep Research”-Funktion, eine bedeutende Entwicklung gegenüber der einfachen Websuche. Während frühere ChatGPT-Versionen das Web durchsuchen konnten, wurde Deep Research beigebracht, Forschung zu betreiben – zu planen, zu iterieren und zu erkunden. Die Websuche wurde zu einem intrinsischen Bestandteil seines Denkprozesses. GPT-5 erweitert diese Philosophie auf praktisch jedes Werkzeug, auf das es zugreifen kann, vorausgesetzt, diese Werkzeuge sind leistungsstark, fähig und offen konzipiert und akzeptieren oft Beschreibungen in natürlicher Sprache als Eingabe. Effektive Werkzeuge für GPT-5 fallen im Allgemeinen in vier Kategorien: interne Abfrage (wie RAG-Systeme oder SQL-Abfragen), Websuche, Code-Interpreter und Aktionen, die Nebeneffekte erzeugen (wie das Bearbeiten von Dateien oder das Auslösen von UI-Elementen). Ein Paradebeispiel für ein leistungsstarkes Werkzeug ist die Websuche selbst, bei der GPT-5 entscheidet, wonach gesucht werden soll, und das Werkzeug das Wie übernimmt.

Ein weiterer signifikanter Fortschritt ist die Beherrschung des parallelen Werkzeugaufrufs durch GPT-5. Während frühere Modelle diese Fähigkeit technisch besaßen, führten sie sie selten korrekt oder konsistent aus. GPT-5 jedoch demonstriert die Intelligenz, zu erkennen, welche Werkzeuge für eine bestimmte Aufgabe gleichzeitig und welche nacheinander ausgeführt werden können und sollten. Diese Parallelisierung reduziert die Latenz drastisch und erweitert die operativen Horizonte des Modells, was völlig neue Produktmöglichkeiten ermöglicht.

Die Interaktion mit GPT-5 erfordert einen Perspektivwechsel. Anstatt ein “Modell” zu prompten, müssen Benutzer sich vorstellen, einen “Agenten” zu prompten. Anstatt umfangreichen Kontext vorab zu laden, benötigt der Agent einen “Kompass” – eine klare, strukturierte Anleitung, um seine Umgebung zu navigieren. Wenn Sie beispielsweise mit GPT-5 in einer großen Codebasis arbeiten, ist es entscheidend, den Zweck des Projekts, relevante Dateien, die Organisationsstruktur und klare Kriterien für die Aufgabenerfüllung anzugeben. Wenn das Modell stecken bleibt, ist ein einfaches “Nein, das ist falsch” weniger effektiv als die Frage: “Was haben wir aus diesem Versuch gelernt?” Dieser Ansatz spiegelt das Lehren wider, da GPT-5, ohne intrinsischen Speicher, an Codestandards herangeführt und Hinweise für den Start jeder Aufgabe gegeben werden muss.

Unsere Beobachtungen bestätigen, dass GPT-5 ein sehr praktisches, branchenorientiertes Modell ist, das sich von der eher “akademischen” Ausrichtung einiger Vorgänger unterscheidet. Es ist bemerkenswert instruierbar und wörtlich, führt Anfragen direkt aus, anstatt die ausgeprägte “Persönlichkeit” zu zeigen, die in Modellen wie Claude zu sehen ist.

GPT-5s Programmierfähigkeit ist sein unbestreitbares Highlight. In einem besonders herausfordernden Test, der verschachtelte Abhängigkeitskonflikte bei der Integration neuer SDKs umfasste, löste GPT-5 das Problem in einem einzigen Versuch – eine Leistung, die Claude Opus und andere fortgeschrittene Modelle nicht erbrachten. GPT-5 ging dies wie ein erfahrener Forscher an: Ordner untersuchen, Diagnosebefehle ausführen, Notizen machen und pausieren, um zu überlegen, wenn Inkonsistenzen auftraten, und schließlich die notwendigen Zeilen in mehreren Verzeichnissen präzise bearbeiten. Dieses iterative, auf Argumentation basierende Debugging stand in starkem Kontrast zu den Trial-and-Error-Ansätzen anderer Modelle. Weitere Demonstrationen seiner Programmierfähigkeiten umfassten die Generierung einer vollständigen Mac OS 9-Website mit reinem HTML, CSS und JavaScript, komplett mit einer funktionsfähigen Malanwendung und persistentem Datenspeicher – alles aus einem einzigen Prompt erstellt und überraschend robust. Für produktionsreife Anwendungen glänzte GPT-5 ebenfalls, indem es eine komplexe Clickhouse-Abfrage und eine Full-Stack-Website mit einer SQLite-Datenbank in einem einzigen Prompt generierte, eine Aufgabe, bei der andere Modelle oft nur Pläne oder unvollständige Gerüste lieferten.

Die verbesserte Werkzeugnutzung, parallele Verarbeitung und Kosteneffizienz von GPT-5 machen es einzigartig geeignet für die Entwicklung langlebiger KI-Agenten. Unser Unternehmen, ein KI-Überwachungsunternehmen, hat lange versucht, einen zuverlässigen Agenten in unser Produkt zu integrieren. Die Fähigkeiten von GPT-5, einschließlich seiner verbesserten Wiederherstellung nach Werkzeugaufruffehlern und seiner Fähigkeit zu erkennen, wann Graphen versus Diagramme generiert werden sollen, haben dies endlich zu einer praktischen Realität gemacht und einen Beta-Rollout an Kunden ermöglicht.

Allerdings ist GPT-5 kein starker Schreiber. Tatsächlich übertreffen GPT-4.5 und DeepSeek R1 es deutlich. Für professionelles Schreiben, wie das Verfeinern von LinkedIn-Beiträgen, hält sich GPT-4.5 enger an den Ton des Benutzers und liefert nutzbaren Text, während GPT-5 eher zu einem generischen “LinkedIn-Schlamperei”-Stil neigt. Ähnlich behält GPT-4.5 für weniger strukturiertes, persönliches Schreiben einen authentischeren Ton bei, der weniger nach typischer LLM-Ausgabe klingt.

Zusammenfassend lässt sich sagen, dass unsere praktische Erfahrung mit den offiziellen Benchmarks von OpenAI übereinstimmt: GPT-5 ist unbestreitbar das weltweit führende Codierungsmodell. Es hat die Automatisierung des Software-Engineerings von geschätzten 65% auf etwa 72% vorangetrieben und markiert den bedeutendsten Sprung seit GPT-3.5 Sonnet. Während Entwickler seine tiefgreifende Wirkung sofort erfassen werden, werden allgemeine Benutzer seine Fähigkeiten möglicherweise erst dann vollends zu schätzen wissen, wenn es in den kommenden Monaten nahtlos in Alltagsprodukte integriert wird.