OpenAI GPT-5 Leitfaden: Agenten-Workflows & Coding-Power
OpenAI hat einen umfangreichen Prompting-Leitfaden für sein neuestes großes Sprachmodell, GPT-5, vorgestellt, der detaillierte Einblicke in die Nutzung seiner Fähigkeiten für Agenten-Workflows und fortgeschrittene Codierungsanwendungen bietet. Dieser Leitfaden, der Erkenntnisse aus der Integration des Cursor-Code-Editors enthält, hebt GPT-5s grundlegendes Training für den anspruchsvollen Werkzeugeinsatz, die präzise Befolgung von Anweisungen und das Verständnis extrem langer Kontexte hervor, was es zu einem idealen Kandidaten für den Aufbau autonomer KI-Agenten macht.
Für agentische Anwendungen – bei denen KI-Modelle die Initiative ergreifen und mehrstufige Aufgaben ausführen – empfiehlt OpenAI die neue Responses API. Diese API wurde entwickelt, um die internen Denkprozesse des Modells zwischen aufeinanderfolgenden Werkzeugaufrufen zu bewahren, was sowohl die Effizienz als auch die Ausgabequalität erheblich verbessert. OpenAIs Daten zeigen eine bemerkenswerte Verbesserung: Allein der Wechsel von traditionellen Chat Completions zur Responses API und die Weitergabe früherer Überlegungen mithilfe des Parameters „previous_response_id“ erhöhte die Tau-Benchmark-Werte im Handel von 73,9 % auf 78,2 %. Das Beibehalten dieses Denk-Kontextes spart nicht nur Verarbeitungstoken, sondern stellt auch sicher, dass Pläne über mehrere Werkzeuginteraktionen hinweg konsistent befolgt werden, was zu besserer Leistung und reduzierter Latenz führt.
Der Grad der „agentischen Initiative“ von GPT-5 – seine Neigung, die Initiative zu ergreifen – kann durch Prompt Engineering und einen neuen Parameter „reasoning_effort“ fein abgestimmt werden. Das Absenken dieses Parameters reduziert die Autonomie des Modells, während die Festlegung klarer Kriterien für Kontextsuche und die Begrenzung der Anzahl von Werkzeugaufrufen (z. B. auf zwei) eine größere Kontrolle bietet, einschließlich Optionen für das Modell, auch bei verbleibender Unsicherheit fortzufahren. Umgekehrt schlägt der Leitfaden vor, zur Förderung größerer Initiative den Denkaufwand zu erhöhen und explizite Anweisungen zur Persistenz hinzuzufügen, um unnötige Klärungsfragen zu minimieren. Er rät auch dazu, klare Abbruchbedingungen festzulegen, zwischen sicheren und riskanten Aktionen zu unterscheiden und Schwellenwerte zu definieren, wann Aufgaben an einen menschlichen Benutzer zurückgegeben werden sollten. Zum Beispiel wird ein niedrigerer Schwellenwert für Benutzerinterventionen in sensiblen Szenarien wie Kauf- oder Zahlungsvorgängen im Vergleich zu einer einfachen Suche empfohlen, und das Löschen von Dateien bei Programmieraufgaben sollte weitaus mehr Vorsicht erfordern als grundlegende Textsuchen. Für längere, mehrstufige Aufgaben ist GPT-5 darauf trainiert, seinen Plan zu Beginn darzulegen und dann prägnante Fortschrittsaktualisierungen zu liefern. Die Häufigkeit, der Stil und der Inhalt dieser Aktualisierungen sind über den Prompt vollständig anpassbar, von einfacher Ziel-Paraphrasierung bis hin zu strukturierten Plänen, sequenziellen Statusmeldungen und umfassenden Abschlussberichten. OpenAI empfiehlt außerdem, hochkomplexe Aufgaben in kleinere, überschaubare Unteraufgaben über mehrere Agentenrunden hinweg aufzuteilen.
OpenAI positioniert GPT-5 als robusten Assistenten für die Softwareentwicklung, der in der Lage ist, große Codebasen zu verwalten, zu debuggen, größere Codeänderungen zu verarbeiten, Refactoring über mehrere Dateien hinweg durchzuführen, bedeutende neue Funktionen zu implementieren und sogar ganze Anwendungen von Grund auf neu zu generieren. Für die Entwicklung neuer Webanwendungen schlägt OpenAI einen spezifischen Technologie-Stack vor, der Next.js (TypeScript), React, HTML, Tailwind CSS, shadcn/ui, Radix Themes, beliebte Icon-Sets, die Motion-Animationsbibliothek und verschiedene moderne Schriftarten umfasst. Für neue „Greenfield“-Projekte schlägt der Leitfaden ein Prompt-Muster vor, bei dem das Modell zuerst einen internen Satz von Qualitätskriterien (typischerweise fünf bis sieben Kategorien) festlegt und dann seine Ausgabe iterativ verfeinert, bis alle Kriterien vollständig erfüllt sind. Bei inkrementellen Änderungen oder der Refaktorierung von bestehendem Code sind die Modifikationen von GPT-5 so konzipiert, dass sie nahtlos integriert werden. Der Leitfaden betont die Bedeutung, die bestehende technische Einrichtung der Codebasis explizit widerzuspiegeln, einschließlich ihrer Leitprinzipien, Verzeichnisstruktur und UI/UX-Regeln. OpenAI liefert Beispielprinzipien wie Klarheit, Wiederverwendung, Konsistenz, Einfachheit und visuelle Qualität, zusammen mit Stack-Standards und UI/UX-Richtlinien, die Typografie, Farben, Abstände, Statusindikatoren und Barrierefreiheit abdecken.
Frühe Tests mit dem Cursor-Code-Editor lieferten wertvolle praktische Einblicke in das Verhalten von GPT-5. Cursor zielte darauf ab, ein Gleichgewicht zwischen der Autonomie des Modells und der Prägnanz seiner Statusmeldungen bei längeren Aufgaben zu finden. Anfangs generierte GPT-5 übermäßig detaillierte Statusaktualisierungen, während es innerhalb von Werkzeugaufrufen übermäßig knappen Code produzierte, manchmal sogar einbuchstabige Variablennamen verwendete. Cursor löste dies, indem der globale API-Parameter „verbosity“ auf niedrig gesetzt wurde, während das Modell gleichzeitig speziell innerhalb von Code-Tools angewiesen wurde, detaillierter zu sein, mit der Anweisung: „Code zuerst für Klarheit schreiben… Hohe Ausführlichkeit beim Schreiben von Code und Code-Tools verwenden.“ Dieser Ansatz führte zu kompakten Status- und Zusammenfassungsnachrichten, während gleichzeitig hochlesbare Codeänderungen gewährleistet wurden. Das Cursor-Team beobachtete auch, dass GPT-5 manchmal unnötige Folgefragen stellte. Die Bereitstellung eines präziseren Kontextes über Rückgängig-/Ablehnfunktionen und Benutzerpräferenzen half, diese Unterbrechungen zu reduzieren, was dazu führte, dass das Modell Änderungen proaktiv anwandte und zur Überprüfung einreichte, anstatt eine vorherige Genehmigung einzuholen. Eine weitere wichtige Erkenntnis war, dass Prompts, die bei früheren Modellen effektiv waren, manchmal eine übermäßige Anzahl von Werkzeugaufrufen in GPT-5 auslösten. Durch die Reduzierung dieser „übergründlichen“ Anweisungen wurde GPT-5 geschickter darin, zu erkennen, wann es sein internes Wissen nutzen und wann es externe Tools einsetzen sollte. Die Verwendung strukturierter, XML-ähnlicher Spezifikationen verbesserte die Befolgung von Anweisungen zusätzlich, und benutzerkonfigurierbare Cursor-Regeln boten zusätzliche Kontrollebenen.
Neben „reasoning_effort“ führt GPT-5 einen neuen API-Parameter „verbosity“ ein, der die Länge der endgültigen Antwort unabhängig steuert. Während ein globaler Ausführlichkeitswert festgelegt werden kann, kann er bei Bedarf auch überschrieben werden, was prägnante Statusmeldungen neben detaillierten Codeausgaben ermöglicht, wie in der Cursor-Integration gezeigt. GPT-5 unterstützt auch einen „minimal reasoning“-Modus, der auf maximale Geschwindigkeit ausgelegt ist, während die Vorteile seines zugrunde liegenden Denkparadigmas erhalten bleiben. OpenAI empfiehlt für diesen Modus Prompts, die mit einer kurzen Begründung beginnen, klare Statusaktualisierungen vor Werkzeugaufrufen enthalten, explizite und persistente Werkzeuganweisungen bereitstellen und den Agenten dazu ermutigen, Aufgaben vollständig abzuschließen, bevor sie zurückgegeben werden. Für Benutzer, die von GPT-4.1 migrieren, verweist OpenAI auf Muster, die in seinem früheren Leitfaden beschrieben sind. OpenAI warnt jedoch davor, dass GPT-5 bei der Befolgung von Anweisungen extrem wörtlich ist, und vage oder widersprüchliche Prompts seine Denkprozesse stören können. Um Benutzern zu helfen, diese Fallstricke zu vermeiden, bietet OpenAI Zugang zu seinem Prompt Optimizer, einem Tool, das entwickelt wurde, um Inkonsistenzen und unklare Anweisungen zu kennzeichnen.