OpenAIs ChatGPT Agent: PC-Steuerung & Fortschrittliche Aufgabenautomatisierung

Livescience

OpenAI hat den ChatGPT Agent eingeführt, eine bedeutende Weiterentwicklung seines führenden Modells für künstliche Intelligenz, das nun mit einem virtuellen Computer und einem integrierten Toolkit ausgestattet ist. Dieses Upgrade befähigt die KI, komplexe, mehrstufige Aufgaben auszuführen, die zuvor außerhalb ihres Bereichs lagen, einschließlich der direkten Steuerung des Computers eines Benutzers und der Erledigung von Aufgaben in dessen Namen. Diese leistungsfähigere Version, die jedoch immer noch eine erhebliche menschliche Aufsicht erfordert, erschien kurz bevor Meta-Forscher berichteten, dass ihre eigenen KI-Modelle Anzeichen unabhängiger Selbstverbesserung zeigten, und ging auch der Veröffentlichung von OpenAIs neuester Chatbot-Iteration, GPT-5, voraus.

Mit dem ChatGPT Agent können Benutzer das große Sprachmodell (LLM) nun nicht nur anweisen, Informationen zu analysieren oder Daten zu sammeln, sondern auch auf diese Daten zu reagieren. Man könnte den Agenten zum Beispiel anweisen, einen Kalender zu scannen und bevorstehende Ereignisse und Erinnerungen zusammenzufassen, oder einen großen Datensatz zu verarbeiten und ihn zu einer prägnanten Zusammenfassung oder einem Präsentationsfoliensatz zu verdichten. Während ein traditionelles LLM Rezepte für ein japanisches Frühstück liefern könnte, könnte der ChatGPT Agent einen Schritt weiter gehen und alle notwendigen Zutaten für eine bestimmte Anzahl von Gästen planen und einkaufen.

Trotz seiner erweiterten Fähigkeiten steht das neue Modell vor inhärenten Einschränkungen. Wie alle KI-Modelle bleibt sein räumliches Denken schwach, was Aufgaben wie die Planung physischer Routen erschwert. Ihm fehlt auch ein echtes persistentes Gedächtnis; es verarbeitet Informationen im Moment, ohne zuverlässige Erinnerung oder die Fähigkeit, über den unmittelbaren Kontext hinaus auf vergangene Interaktionen zu verweisen.

Dennoch zeigt der ChatGPT Agent bemerkenswerte Verbesserungen in OpenAIs eigenen Benchmarks. Bei „Humanity’s Last Exam“, einem KI-Benchmark, der die Kompetenz eines Modells bei der Beantwortung von Expertenfragen in verschiedenen Disziplinen bewertet, verdoppelte der Agent den Genauigkeitsprozentsatz mehr als und erreichte 41,6 % im Vergleich zu OpenAI o3 ohne Tools, das 20,3 % erzielte. Er übertraf auch andere OpenAI-Tools sowie eine Version von sich selbst, der integrierte Funktionen wie ein Browser und ein virtueller Computer fehlten, deutlich. Im anspruchsvollen Mathematik-Benchmark „FrontierMath“ übertraf der ChatGPT Agent mit seiner umfassenden Suite von Tools frühere Modelle erneut erheblich.

Die Architektur des Agenten basiert auf drei grundlegenden Elementen, die aus früheren OpenAI-Produkten stammen. Das erste ist „Operator“, ein Agent, der entwickelt wurde, um über seinen eigenen virtuellen Browser im Web zu navigieren. Das zweite, „deep research“, konzentriert sich auf das Durchsuchen und Synthetisieren großer Datenmengen. Die letzte Komponente integriert frühere Versionen von ChatGPT und nutzt deren Stärken in der Konversationsflüssigkeit und Präsentation.

Kofi Nyarko, Professor an der Morgan State University und Direktor des Data Engineering and Predictive Analytics (DEPA) Research Lab, fasste die Kernfunktionalität des Agenten zusammen: „Im Wesentlichen kann er autonom im Web browsen, Code generieren, Dateien erstellen und so weiter, alles unter menschlicher Aufsicht.“ Nyarko beeilte sich jedoch zu betonen, dass der neue Agent nicht wirklich autonom ist. Er warnte, dass „Halluzinationen, Fragilität der Benutzeroberfläche oder Fehlinterpretationen zu Fehlern führen können. Eingebaute Schutzmaßnahmen wie Berechtigungsaufforderungen und Unterbrechbarkeit sind wesentlich, aber nicht ausreichend, um das Risiko vollständig zu eliminieren.“

OpenAI selbst hat die potenziellen Gefahren, die von diesem autonomeren Agenten ausgehen, offen anerkannt und seine „hohen biologischen und chemischen Fähigkeiten“ zitiert. Das Unternehmen hat Bedenken geäußert, dass der Agent potenziell bei der Herstellung chemischer oder biologischer Waffen helfen könnte. Im Vergleich zu bestehenden Ressourcen wie einem Chemielabor und einem Lehrbuch stellt ein KI-Agent das dar, was Biosecurity-Experten als „Fähigkeitseskalationspfad“ bezeichnen. KI kann schnell auf unzählige Ressourcen zugreifen und diese synthetisieren, Wissen über verschiedene wissenschaftliche Felder hinweg zusammenführen, iterative Fehlerbehebung ähnlich einem Expertenmentor anbieten, Lieferanten-Websites navigieren, Bestellformulare ausfüllen und sogar helfen, grundlegende Verifizierungsprüfungen zu umgehen.

Darüber hinaus kann der Agent mit seinem virtuellen Computer autonom mit Dateien, Websites und Online-Tools interagieren, was sein Schadenspotenzial bei Missbrauch verstärkt. Das Risiko von Datenlecks oder -manipulationen sowie von Fehlausrichtungen wie Finanzbetrug wird im Falle eines Prompt-Injection-Angriffs erhöht, bei dem bösartige Anweisungen subtil eingebettet werden, um das Verhalten der KI zu kapern. Nyarko wies ferner darauf hin, dass diese Risiken zusätzlich zu den Risiken bestehen, die traditionellen KI-Modellen und LLMs inhärent sind. Er erläuterte breitere Bedenken für KI-Agenten, einschließlich der Frage, wie autonome Operationen Fehler verstärken, Verzerrungen aus öffentlichen Daten einführen, Haftungsrahmen verkomplizieren und unbeabsichtigt psychologische Abhängigkeit fördern könnten.

Als Reaktion auf diese neuen Bedrohungen haben OpenAI-Ingenieure Berichten zufolge eine Reihe von Schutzmaßnahmen verstärkt. Diese Maßnahmen umfassen eine umfassende Bedrohungsmodellierung, Dual-Use-Ablehnungstraining – das dem Modell beibringt, schädliche Anfragen abzulehnen, die Daten mit sowohl nützlichen als auch bösartigen Anwendungen betreffen –, Bug-Bounty-Programme und Experten-„Red-Teaming“, einen Prozess des aktiven Angriffs auf das System zur Identifizierung von Schwachstellen, mit einem spezifischen Fokus auf Biodefense. Trotz dieser Bemühungen bewertete eine im Juli 2025 von SaferAI, einer auf Sicherheit fokussierten Non-Profit-Organisation, durchgeführte Risikomanagementbewertung die Risikomanagementrichtlinien von OpenAI als „schwach“ und vergab ihnen nur 33 % von möglichen 100 %. OpenAI erhielt auch die Note C im AI Safety Index, der vom Future of Life Institute, einer prominenten KI-Sicherheitsorganisation, erstellt wurde.