OpenAIs ChatGPT Agent: PC-Steuerung & Aufgabenautomatisierung erklärt
OpenAI hat ChatGPT Agent vorgestellt, eine bedeutende Weiterentwicklung seines Flaggschiff-Modells für künstliche Intelligenz. Diese fortschrittliche Iteration ist mit einer virtuellen Computerumgebung und einem integrierten Toolkit ausgestattet, was ihre Fähigkeiten grundlegend verändert. Der Agent ist nicht länger auf bloße Analyse oder Datenabruf beschränkt, sondern kann nun komplexe, mehrstufige Aufgaben ausführen, indem er den Computer eines Benutzers direkt steuert. Dieser Funktionssprung, der immer noch erhebliche menschliche Eingaben und Aufsicht erfordert, erfolgte inmitten einer Phase schneller KI-Entwicklung, kurz bevor Meta-Forscher berichteten, dass ihre KI-Modelle Anzeichen unabhängiger Selbstverbesserung zeigten und vor OpenAIs eigener Veröffentlichung von GPT-5.
Mit ChatGPT Agent können Benutzer das große Sprachmodell anweisen, Informationen nicht nur zu verarbeiten, sondern auch darauf zu reagieren. Man könnte den Agenten beispielsweise beauftragen, einen Kalender zu überprüfen und eine Zusammenfassung bevorstehender Ereignisse zu erstellen, oder einen riesigen Datensatz zu durchsuchen und ihn zu einer prägnanten Zusammenfassung oder einem Präsentationsdeck zu synthetisieren. Während frühere große Sprachmodelle Rezepte für ein japanisches Frühstück liefern konnten, besitzt ChatGPT Agent die Fähigkeit, die Mahlzeit vollständig zu planen und sogar die notwendigen Zutaten für eine bestimmte Anzahl von Gästen zu kaufen.
Trotz seiner beeindruckenden neuen Fähigkeiten ist das Modell nicht ohne Einschränkungen. Wie alle aktuellen KI-Modelle bleibt sein räumliches Denken schwach, was Aufgaben, die physische Navigation oder Planung beinhalten, behindert. Darüber hinaus fehlt ihm ein echtes persistentes Gedächtnis; es verarbeitet Informationen in Echtzeit ohne zuverlässigen Abruf oder die Fähigkeit, auf vergangene Interaktionen außerhalb des unmittelbaren Gesprächskontexts zu verweisen.
Dennoch zeigt ChatGPT Agent deutliche Verbesserungen in OpenAIs internen Benchmarking-Tests. Bei „Humanity’s Last Exam“, einem KI-Benchmark, der die Fähigkeit eines Modells zur Beantwortung von Expertenfragen in verschiedenen Disziplinen bewertet, verdoppelte der Agent die Genauigkeit von OpenAI o3 ohne Tools und erreichte 41,6 % im Vergleich zu 20,3 %. Er übertraf auch andere OpenAI-Tools und eine Version von sich selbst, der integrierte Tools wie einen Browser und einen virtuellen Computer fehlten, erheblich. Im anspruchsvollen „FrontierMath“-Benchmark übertraf ChatGPT Agent mit seinem umfassenden Toolkit frühere Modelle erneut um ein Vielfaches.
Die Architektur des Agenten basiert auf drei grundlegenden Säulen, die aus früheren OpenAI-Innovationen stammen. Die erste ist „Operator“, ein Agent, der entwickelt wurde, um autonom das Web für Benutzer zu durchsuchen. Die zweite ist „Deep Research“, entwickelt, um umfangreiche Datensätze effizient zu durchsuchen und zu synthetisieren. Die letzte Komponente integriert frühere Versionen von ChatGPT selbst, die für ihre Konversationsflüssigkeit und Präsentationsfähigkeiten bekannt sind. Laut Kofi Nyarko, Professor an der Morgan State University und Direktor des Data Engineering and Predictive Analytics (DEPA) Research Lab, bedeutet diese Integration, dass der Agent „autonom das Web durchsuchen, Code generieren, Dateien erstellen und so weiter kann, alles unter menschlicher Aufsicht“.
Nyarko betonte jedoch schnell, dass der neue Agent weit davon entfernt ist, vollständig autonom zu sein. Er warnte, dass „Halluzinationen, Fragilität der Benutzeroberfläche oder Fehlinterpretationen zu Fehlern führen können. Eingebaute Schutzmaßnahmen wie Berechtigungsaufforderungen und Unterbrechbarkeit sind unerlässlich, aber nicht ausreichend, um das Risiko vollständig zu eliminieren.“
OpenAI selbst hat die inhärenten Gefahren, die durch die erhöhte Autonomie des Agenten entstehen, offen anerkannt. Unternehmensvertreter haben erklärt, dass ChatGPT Agent „hohe biologische und chemische Fähigkeiten“ besitzt, was Bedenken aufwirft, dass es potenziell bei der Herstellung chemischer oder biologischer Waffen helfen könnte. Biosecurity-Experten sehen KI-Agenten wie diesen als einen „Fähigkeitseskalationspfad“ im Vergleich zu bestehenden Ressourcen wie einem Chemielabor und einem Lehrbuch. Eine KI kann sofort auf unzählige Ressourcen zurückgreifen, Daten aus verschiedenen wissenschaftlichen Disziplinen synthetisieren, iterative Fehlerbehebung ähnlich einem erfahrenen Mentor anbieten, Lieferanten-Websites navigieren, Bestellformulare ausfüllen und sogar helfen, grundlegende Überprüfungen zu umgehen.
Mit seinem virtuellen Computer kann der Agent auch autonom mit Dateien, Websites und Online-Tools interagieren, was das Schadenspotenzial bei Missbrauch verstärkt. Das Risiko von Datenlecks, Datenmanipulation und fehlerhaftem Verhalten wie Finanzbetrug wird erheblich erhöht, insbesondere im Falle eines Prompt-Injection-Angriffs, bei dem bösartige Befehle subtil in Benutzereingaben eingebettet werden, oder anderer Formen der Entführung. Diese Risiken, so Nyarko, kommen zu denen hinzu, die bereits in traditionellen KI-Modellen und großen Sprachmodellen implizit sind, einschließlich der Verstärkung von Fehlern, der Einführung von Verzerrungen aus öffentlichen Daten, der Komplikation von Haftungsrahmen und der unbeabsichtigten Förderung psychologischer Abhängigkeit.
Als Reaktion auf die neuen Bedrohungen, die ein agenteres Modell darstellt, haben die OpenAI-Ingenieure auch eine Reihe von Schutzmaßnahmen verstärkt. Diese Maßnahmen umfassen umfassende Bedrohungsmodellierung, Dual-Use-Ablehnungstraining – bei dem dem Modell beigebracht wird, schädliche Anfragen abzulehnen, die Daten betreffen, die sowohl nützliche als auch böswillige Anwendungen haben könnten –, Bug-Bounty-Programme und Experten-„Red-Teaming“-Übungen, die sich auf Biodefense konzentrieren. Trotz dieser Bemühungen bewertete SaferAI, eine auf Sicherheit spezialisierte Non-Profit-Organisation, in einer Risikomanagementbewertung vom Juli 2025 die Risikomanagementrichtlinien von OpenAI als „schwach“ und vergab ihnen eine Punktzahl von 33 % von möglichen 100 %. Ähnlich erhielt OpenAI im KI-Sicherheitsindex des Future of Life Institute, einer prominenten KI-Sicherheitsorganisation, nur die Note C.