CoAct-1: Hybrid-KI-Agent setzt neuen OSWorld-Benchmark-Rekord
Ein kollaboratives Forscherteam der University of Southern California, Salesforce AI und der University of Washington hat CoAct-1 vorgestellt, ein bahnbrechendes Multi-Agenten-System, das darauf ausgelegt ist, die autonome Computerbedienung erheblich voranzutreiben. Dieses innovative System definiert die Interaktion von KI-Agenten mit Computern neu, indem es direkte Codierung zu einer primären Aktion erhebt und sie traditioneller grafischer Benutzeroberflächen (GUI)-Manipulation gleichstellt. Diese grundlegende Verschiebung adressiert langjährige Herausforderungen bezüglich der Effizienz und Zuverlässigkeit von KI bei der Bewältigung komplexer, mehrstufiger Computeraufgaben. Auf dem anspruchsvollen OSWorld-Benchmark hat CoAct-1 einen neuen Leistungsmaßstab etabliert und eine beispiellose Erfolgsrate von 60,76 % erreicht, was es zum ersten KI-Agenten dieser Art macht, der die 60 %-Schwelle überschreitet.
Konventionelle computergestützte KI-Agenten verlassen sich typischerweise ausschließlich auf pixelbasierte GUI-Interaktion, indem sie menschliche Benutzer imitieren, indem sie Oberflächen navigieren, Elemente anklicken und tippen. Obwohl dieser Ansatz es ihnen ermöglicht, menschliche Arbeitsabläufe zu replizieren, erweist er sich oft als fragil und ineffizient, insbesondere bei komplexen Aufgaben, die überladene Schnittstellen, Arbeitsabläufe über mehrere Anwendungen hinweg oder komplexe Betriebssystemoperationen umfassen. Schon ein einziger Fehlklick kann einen gesamten Arbeitsablauf zum Scheitern bringen, und mit zunehmender Komplexität der Aufgaben kann die Anzahl der erforderlichen Schritte dramatisch ansteigen. Bemühungen, diese Probleme zu mindern, wie die Erweiterung von GUI-Agenten mit High-Level-Planern, wurden erforscht, aber diese Methoden bleiben letztendlich durch die inhärenten Einschränkungen GUI-zentrierter Aktionsräume begrenzt, die sowohl die Effizienz als auch die allgemeine Robustheit einschränken.
CoAct-1 führt einen grundlegend anderen Ansatz durch seine hybride Architektur ein, die drei spezialisierte KI-Agenten integriert. Im Kern steht der Orchestrator, ein High-Level-Planer, der komplexe Aufgaben in kleinere Unteraufgaben zerlegt. Entscheidend ist, dass der Orchestrator jede Unteraufgabe dynamisch entweder an den Programmierer oder den GUI-Operator delegiert, basierend auf den spezifischen Anforderungen der Aufgabe. Der Programmierer-Agent übernimmt Backend-Operationen – wie Dateiverwaltung, Datenverarbeitung oder Umgebungs-konfiguration – durch die Ausführung direkter Python- oder Bash-Skripte, wodurch die oft umständlichen und fehleranfälligen Sequenzen von GUI-Aktionen umgangen werden. Ergänzend dazu nutzt der GUI-Operator ein KI-Modell, das visuelle Informationen und Sprache interpretieren kann, um mit grafischen Benutzeroberflächen zu interagieren, wenn eine menschenähnliche UI-Navigation unverzichtbar ist. Dieses Hybridmodell ermöglicht es CoAct-1, spröde und langwierige Maus-Tastatur-Operationen strategisch durch prägnante, zuverlässige Codeausführung zu ersetzen, während GUI-Interaktionen bei Bedarf präzise genutzt werden.
Die Fähigkeiten des Systems wurden auf OSWorld rigoros evaluiert, einem führenden Benchmark, der 369 verschiedene Aufgaben umfasst, darunter Office-Produktivitätssuiten, integrierte Entwicklungsumgebungen (IDEs), Webbrowser, Dateimanager und Multi-Anwendungs-Workflows. Jede Aufgabe in OSWorld spiegelt reale Sprachziele wider und wird mithilfe eines granularen, regelbasierten Bewertungssystems bewertet. Die Leistung von CoAct-1 war bemerkenswert: Es erreichte eine Gesamterfolgsrate von 60,76 % in der Kategorie der über 100 Schritte und übertraf damit führende Frameworks wie GTA-1 (53,10 %), OpenAI CUA 4o (31,40 %) und UI-TARS-1.5 (29,60 %). Darüber hinaus zeigte es eine überlegene Effizienz, indem es erfolgreiche Aufgaben mit durchschnittlich nur 10,15 Schritten abschloss, deutlich weniger als die 15,22 Schritte von GTA-1 oder die 14,90 Schritte von UI-TARS. Während OpenAI CUA 4o weniger Schritte (6,14) erreichte, war seine Erfolgsrate mit 31,40 % erheblich niedriger, was CoAct-1s Gleichgewicht aus Geschwindigkeit und Genauigkeit hervorhebt. Das System zeigte besondere Stärke bei Multi-Anwendungs-Workflows (47,88 % Erfolg, verglichen mit GTA-1s 38,34 %) und Betriebssystemaufgaben (75,00 %), wobei es in den Bereichen Produktivität und IDEs stets die beste Leistung anführte oder erreichte.
Mehrere wichtige Erkenntnisse beleuchten die Treiber hinter CoAct-1s beeindruckenden Fortschritten. Die Fähigkeit, Codierungsaktionen direkt auszuführen, ersetzt zahlreiche redundante und fehleranfällige GUI-Sequenzen; zum Beispiel kann ein einziges Skript die Stapelbildgrößenänderung oder fortgeschrittene Dateimanipulationen automatisieren, die sonst Dutzende von Klicks erfordern würden, wodurch sowohl Schritte als auch potenzielle Fehlerquellen drastisch reduziert werden. Die dynamische Delegation des Orchestrators gewährleistet eine optimale Nutzung sowohl von Codierungs- als auch von GUI-Aktionen und passt sich den Aufgabenbedürfnissen an. Darüber hinaus zeigt die Forschung, dass die Integration leistungsfähigerer zugrunde liegender KI-Modelle die Leistung erheblich verbessert; die Konfiguration, die die Top-Punktzahl von 60,76 % erreichte, nutzte OpenAI CUA 4o für den GUI-Operator, OpenAI o3 für den Orchestrator und o4-mini für den Programmierer. Diese Korrelation unterstreicht, dass die Effizienz des Systems direkt zu seiner Zuverlässigkeit beiträgt, da weniger Schritte naturgemäß Fehlerquellen reduzieren, was ein starker Prädiktor für den Erfolg bei der Aufgabenbewältigung ist.
Indem Codierung neben der GUI-Manipulation zu einer erstklassigen Systemaktion gemacht wird, liefert CoAct-1 einen signifikanten Sprung sowohl in der Erfolgsrate als auch in der Effizienz autonomer Computeragenten. Seine hybride Architektur und dynamische Ausführungslogik setzen einen neuen Maßstab für das Feld und läuten robuste Fortschritte in der realen Computerautomatisierung ein.