Salesforce CoAct-1 KI-Agenten: Code & Klick für schnellere GUI-Aufgaben

Venturebeat

Forscher von Salesforce und der University of Southern California haben eine neuartige Technik vorgestellt, die KI-Agenten eine hybride Fähigkeit verleihen soll: das Ausführen von Code bei gleichzeitiger Navigation in grafischen Benutzeroberflächen (GUIs). Dieses innovative System, CoAct-1 genannt, stellt einen bedeutenden Fortschritt dar, indem es die Präzision des Scriptings mit der intuitiven Interaktion traditioneller Point-and-Click-Methoden kombiniert, um Arbeitsabläufe zu beschleunigen und Fehler drastisch zu reduzieren. Indem es Agenten ermöglicht, die oft fragile und ineffiziente Natur von Mausklicks für Aufgaben zu umgehen, die programmatisch besser zu handhaben sind, setzt CoAct-1 einen neuen Maßstab für die Agentenleistung und erledigt komplexe Computeraufgaben in deutlich weniger Schritten als frühere Methoden. Dieser Durchbruch verspricht eine robustere und skalierbarere Automatisierung und öffnet Türen für weit verbreitete Anwendungen in der realen Welt.

Aktuelle Computernutzungsagenten verlassen sich überwiegend auf KI-Modelle, die visuelle Informationen und Sprache interpretieren, um die menschliche Interaktion mit Maus und Tastatur nachzuahmen. Obwohl diese GUI-basierten Agenten eine Vielzahl von Aufgaben ausführen können, scheitern sie häufig, wenn sie mit langen, komplizierten Arbeitsabläufen konfrontiert werden, insbesondere innerhalb von Anwendungen mit dichten Menüs und zahlreichen Optionen, wie z.B. Büroproduktivitätssuiten. Man stelle sich zum Beispiel eine Aufgabe vor, bei der ein Agent eine bestimmte Tabelle in einer Tabellenkalkulation finden, deren Inhalte filtern und sie dann als neue Datei speichern muss. Eine solche Operation erfordert eine präzise und ausgedehnte Abfolge von GUI-Manipulationen. Genau hier entsteht die Brüchigkeit. Wie die Forscher in ihrer Arbeit feststellen, kämpfen bestehende Agenten oft mit visueller Mehrdeutigkeit – der Unterscheidung zwischen visuell ähnlichen Symbolen oder Menüpunkten – und der kumulativen Wahrscheinlichkeit, einen einzigen Fehler über eine lange Sequenz hinweg zu machen. Ein einziger Fehlklick oder eine Fehlinterpretation eines UI-Elements kann eine ganze Aufgabe zum Scheitern bringen.

Um diese Herausforderungen zu mildern, haben sich viele Forscher darauf konzentriert, GUI-Agenten mit High-Level-Planern zu erweitern, die leistungsstarke Denkmodelle einsetzen, um das übergeordnete Ziel eines Benutzers in eine Reihe kleinerer, besser handhabbarer Unteraufgaben zu zerlegen. Obwohl dieser strukturierte Ansatz die Leistung verbessert, löst er das Problem der Navigation in Menüs und des Klickens auf Schaltflächen nicht grundlegend, selbst für Operationen, die mit wenigen Codezeilen direkter und zuverlässiger abgeschlossen werden könnten.

Hier bietet CoAct-1, kurz für „Computer-using Agent with Coding as Actions“, eine transformative Lösung. CoAct-1 wurde entwickelt, um die intuitiven, menschenähnlichen Stärken der GUI-Manipulation mit der Präzision, Zuverlässigkeit und Effizienz der direkten Systeminteraktion über Code zu vereinen. Es arbeitet als kollaboratives Team aus drei spezialisierten Agenten: einem Orchestrator, einem Programmer und einem GUI Operator. Der Orchestrator fungiert als zentraler Planer, analysiert das Benutzerziel, zerlegt es in Unteraufgaben und delegiert jede intelligent an den am besten geeigneten Agenten. Backend-Operationen wie Dateiverwaltung oder Datenverarbeitung werden dem Programmer zugewiesen, der geschickt Python- oder Bash-Skripte schreibt und ausführt. Für Frontend-Aufgaben, die Schaltflächenklicks oder visuelle Schnittstellennavigation erfordern, verweist der Orchestrator an den GUI Operator, ein KI-Modell, das speziell für visuelle Interaktion entwickelt wurde. Diese dynamische Delegation ermöglicht es CoAct-1, ineffiziente GUI-Sequenzen strategisch zugunsten einer robusten, einmaligen Code-Ausführung zu umgehen, wenn dies geeignet ist, während die visuelle Interaktion für Aufgaben genutzt wird, bei denen sie unerlässlich bleibt. Der Workflow ist iterativ: Nach Abschluss jeder Unteraufgabe werden eine Zusammenfassung und ein Screenshot an den Orchestrator zurückgesendet, der dann die nächste Aktion bestimmt oder die Aufgabe abschließt. Sowohl der Programmer als auch der GUI Operator nutzen ausgeklügelte Interpreter, um ihre Aktionen zu testen und zu verfeinern und so die Genauigkeit zu gewährleisten.

Die Fähigkeiten von CoAct-1 wurden rigoros auf OSWorld getestet, einem umfassenden Benchmark mit 369 realen Aufgaben, die Browser, integrierte Entwicklungsumgebungen und Office-Anwendungen umfassen. Die Ergebnisse sind überzeugend: CoAct-1 erreichte eine neue, hochmoderne Erfolgsrate von 60,76 %. Die Leistungssteigerungen waren besonders ausgeprägt in Kategorien, in denen die programmatische Steuerung einen deutlichen Vorteil bietet, wie z. B. bei Aufgaben auf Betriebssystemebene und Workflows mit mehreren Anwendungen. Man betrachte zum Beispiel eine Aufgabe auf Betriebssystemebene, wie das Finden aller Bilddateien innerhalb einer komplexen Ordnerstruktur, deren Größenänderung und anschließende Komprimierung des gesamten Verzeichnisses. Ein rein GUI-basierter Agent würde eine lange, fehleranfällige Abfolge von Klicks und Zügen erfordern. CoAct-1 hingegen kann diesen gesamten Workflow an seinen Programmer-Agenten delegieren, der die Aufgabe mit einem einzigen, robusten Skript erledigen kann. Neben höheren Erfolgsraten ist das System dramatisch effizienter und löst Aufgaben in durchschnittlich nur 10,15 Schritten, eine deutliche Verbesserung gegenüber den 15,22 Schritten, die typischerweise von führenden reinen GUI-Agenten wie GTA-1 benötigt werden. Diese Effizienz ist entscheidend, da die Forscher einen klaren Trend beobachteten: Aufgaben, die mehr Aktionen erfordern, scheitern eher. Durch die Reduzierung der Schrittanzahl beschleunigt CoAct-1 nicht nur die Aufgabenbearbeitung, sondern minimiert, was noch wichtiger ist, Fehlerquellen und ebnet so einen robusteren und skalierbareren Weg zur generalisierten Computerautomatisierung.

Die potenziellen Auswirkungen dieser Technologie reichen weit über die allgemeine Produktivität hinaus und bieten Führungskräften in Unternehmen, die komplexe, Multi-Tool-Prozesse automatisieren möchten, bei denen der vollständige API-Zugriff oft ein Luxus ist, einen erheblichen Mehrwert. Ran Xu, Mitautor des Papiers und Director of Applied AI Research bei Salesforce, hebt den Kundensupport als Paradebeispiel hervor. Service-Agenten nutzen häufig eine Vielzahl von Tools – von allgemeinen Plattformen wie Salesforce bis hin zu branchenspezifischen Anwendungen wie EPIC für das Gesundheitswesen, zusammen mit zahlreichen kundenspezifischen Tools –, um Kundenanfragen zu bearbeiten. Vielen dieser Tools fehlt der API-Zugriff, was sie zu idealen Kandidaten für CoAct-1 macht, das jede verfügbare Interaktionsmethode nutzen kann, sei es API, Code oder direkte Bildschirminteraktion. Xu identifiziert auch hochwertige Anwendungen im Vertrieb, wie z. B. die groß angelegte Kundenakquise und die automatisierte Buchhaltung, und im Marketing für Aufgaben wie die Kundensegmentierung und die Generierung von Kampagnenmaterialien.

Trotz seiner beeindruckenden Benchmark-Leistung stellen reale Unternehmensumgebungen einzigartige Herausforderungen dar, darunter Altsysteme und unvorhersehbare Benutzeroberflächen. Dies wirft kritische Fragen bezüglich Robustheit, Sicherheit und der Notwendigkeit menschlicher Aufsicht auf. Sicherzustellen, dass der Orchestrator-Agent die richtige Wahl trifft, wenn er mit einer unbekannten Anwendung konfrontiert wird, ist eine zentrale Herausforderung. Laut Xu erfordert die Robustheit von Agenten wie CoAct-1 für kundenspezifische Unternehmenssoftware ein umfangreiches Training in realistischen, simulierten Umgebungen. Das ultimative Ziel ist ein System, bei dem der Agent von menschlichen Agenten lernen, in einer Sandbox trainieren und dann live unter menschlicher Anleitung und Schutzmaßnahmen operieren kann. Die Fähigkeit des Programmer-Agenten, seinen eigenen Code auszuführen, birgt auch offensichtliche Sicherheitsbedenken, insbesondere das Risiko, schädlichen Code basierend auf mehrdeutigen Benutzeranfragen auszuführen. Xu betont, dass eine robuste Eindämmung von größter Bedeutung ist, wobei Zugriffssteuerung und Sandboxing entscheidend sind. Ein Mensch muss die Auswirkungen verstehen und dem KI-Zugriff aus Sicherheitsgründen zustimmen. Sandboxing und Schutzmaßnahmen werden entscheidend sein, um das Verhalten des Agenten vor der Bereitstellung auf sensiblen Systemen zu validieren. Letztendlich wird die Überwindung von Mehrdeutigkeit auf absehbare Zeit wahrscheinlich menschliches Eingreifen erfordern. Xu sieht einen schrittweisen Ansatz vor, beginnend mit einem Menschen im Regelkreis für alle Aufgaben, wobei einige schließlich volle Autonomie erreichen. Für missionskritische Operationen bleibt die menschliche Validierung jedoch entscheidend, um Sicherheit und Genauigkeit zu gewährleisten.