CoAct-1 de Salesforce : Des Agents IA qui Codent et Cliquent pour des Tâches GUI Accélérées
Des chercheurs de Salesforce et de l’Université de Californie du Sud ont dévoilé une nouvelle technique conçue pour doter les agents d’IA d’une capacité hybride : exécuter du code tout en naviguant simultanément dans des interfaces utilisateur graphiques (GUI). Ce système innovant, baptisé CoAct-1, représente un bond en avant significatif, combinant la précision du scriptage avec l’interaction intuitive des méthodes traditionnelles de “pointer-cliquer” pour accélérer les flux de travail et réduire drastiquement les erreurs. En permettant aux agents de contourner la nature souvent fragile et inefficace des clics de souris pour des tâches mieux gérées par programmation, CoAct-1 établit une nouvelle référence en matière de performance des agents, accomplissant des tâches informatiques complexes en beaucoup moins d’étapes que les méthodes précédentes. Cette avancée promet une automatisation plus robuste et évolutive, ouvrant la voie à des applications généralisées dans le monde réel.
Les agents d’utilisation informatique actuels s’appuient principalement sur des modèles d’IA qui interprètent les informations visuelles et le langage pour imiter l’interaction humaine avec une souris et un clavier. Bien que ces agents basés sur des interfaces graphiques puissent effectuer une variété de tâches, ils échouent fréquemment lorsqu’ils sont confrontés à des flux de travail longs et complexes, en particulier au sein d’applications présentant des menus denses et de nombreuses options, telles que les suites bureautiques. Considérez, par exemple, une tâche nécessitant qu’un agent localise un tableau spécifique dans une feuille de calcul, filtre son contenu, puis l’enregistre comme un nouveau fichier. Une telle opération exige une séquence précise et étendue de manipulations de l’interface graphique. C’est précisément là que la fragilité apparaît. Comme le notent les chercheurs dans leur article, les agents existants ont souvent du mal avec l’ambiguïté visuelle — distinguer des icônes ou des éléments de menu visuellement similaires — et la probabilité cumulative de commettre une seule erreur sur une longue séquence. Un seul clic erroné ou une mauvaise interprétation d’un élément d’interface utilisateur peut faire dérailler une tâche entière.
Pour atténuer ces défis, de nombreux chercheurs se sont concentrés sur l’augmentation des agents GUI avec des planificateurs de haut niveau, employant de puissants modèles de raisonnement pour décomposer l’objectif global d’un utilisateur en une série de sous-tâches plus petites et plus gérables. Bien que cette approche structurée améliore les performances, elle ne résout pas fondamentalement le problème de la navigation dans les menus et du clic sur les boutons, même pour des opérations qui pourraient être complétées plus directement et de manière plus fiable avec quelques lignes de code.
C’est là que CoAct-1, abréviation de “Computer-using Agent with Coding as Actions” (Agent utilisant l’ordinateur avec le codage comme actions), offre une solution transformatrice. Conçu pour fusionner les forces intuitives et humaines de la manipulation GUI avec la précision, la fiabilité et l’efficacité de l’interaction directe avec le système via le code, CoAct-1 fonctionne comme une équipe collaborative de trois agents spécialisés : un Orchestrateur, un Programmeur et un Opérateur GUI. L’Orchestrateur fonctionne comme le planificateur central, analysant l’objectif de l’utilisateur, le décomposant en sous-tâches et déléguant intelligemment chacune à l’agent le plus approprié. Les opérations de backend comme la gestion de fichiers ou le traitement de données sont attribuées au Programmeur, qui écrit et exécute habilement des scripts Python ou Bash. Pour les tâches frontend nécessitant des clics de bouton ou une navigation d’interface visuelle, l’Orchestrateur délègue à l’Opérateur GUI, un modèle d’IA spécifiquement conçu pour l’interaction visuelle. Cette délégation dynamique permet à CoAct-1 de contourner stratégiquement les séquences GUI inefficaces au profit d’une exécution de code robuste et unique lorsque cela est approprié, tout en tirant parti de l’interaction visuelle pour les tâches où elle reste indispensable. Le flux de travail est itératif, chaque achèvement de sous-tâche entraînant un résumé et une capture d’écran renvoyés à l’Orchestrateur, qui détermine ensuite l’action suivante ou conclut la tâche. Le Programmeur et l’Opérateur GUI exploitent tous deux des interpréteurs sophistiqués pour tester et affiner leurs actions, garantissant ainsi la précision.
Les capacités de CoAct-1 ont été rigoureusement testées sur OSWorld, un benchmark complet comprenant 369 tâches du monde réel couvrant les navigateurs, les environnements de développement intégrés et les applications bureautiques. Les résultats sont convaincants : CoAct-1 a atteint un nouveau taux de réussite à la pointe de la technologie de 60,76 %. Les gains de performance étaient particulièrement prononcés dans les catégories où le contrôle programmatique offre un avantage distinct, comme les tâches au niveau du système d’exploitation et les flux de travail multi-applications. Par exemple, considérons une tâche au niveau du système d’exploitation comme la recherche de tous les fichiers image dans une structure de dossiers complexe, leur redimensionnement, puis la compression de l’ensemble du répertoire. Un agent purement basé sur l’interface graphique nécessiterait une longue séquence de clics et de glisser-déposer, sujette aux erreurs. CoAct-1, à l’inverse, peut déléguer l’intégralité de ce flux de travail à son agent Programmeur, qui peut accomplir la tâche avec un seul script robuste. Au-delà des taux de réussite plus élevés, le système est considérablement plus efficace, résolvant les tâches en moyenne en seulement 10,15 étapes, une nette amélioration par rapport aux 15,22 étapes généralement requises par les principaux agents uniquement GUI comme GTA-1. Cette efficacité est cruciale, car les chercheurs ont observé une tendance claire : les tâches nécessitant plus d’actions sont plus susceptibles d’échouer. En réduisant le nombre d’étapes, CoAct-1 non seulement accélère l’achèvement des tâches, mais, plus important encore, minimise les opportunités d’erreur, ouvrant la voie à une automatisation informatique généralisée plus robuste et évolutive.
Les implications potentielles de cette technologie s’étendent bien au-delà de la productivité générale, offrant une valeur significative aux dirigeants d’entreprise qui cherchent à automatiser des processus complexes multi-outils où l’accès complet à l’API est souvent un luxe. Ran Xu, co-auteur de l’article et directeur de la recherche en IA appliquée chez Salesforce, cite le support client comme un excellent exemple. Les agents de service utilisent fréquemment un large éventail d’outils — des plateformes générales comme Salesforce aux applications spécifiques à l’industrie telles qu’EPIC pour les soins de santé, en passant par de nombreux outils personnalisés — pour répondre aux demandes des clients. Bon nombre de ces outils manquent d’accès API, ce qui en fait des candidats idéaux pour CoAct-1, qui peut exploiter toute méthode d’interaction disponible, qu’il s’agisse d’API, de code ou d’interaction directe avec l’écran. Xu identifie également des applications à forte valeur ajoutée dans les ventes, telles que la prospection à grande échelle et la comptabilité automatisée, et dans le marketing pour des tâches comme la segmentation des clients et la génération d’actifs de campagne.
Malgré ses performances impressionnantes en matière de benchmarking, les environnements d’entreprise réels présentent des défis uniques, notamment les logiciels hérités et les interfaces utilisateur imprévisibles. Cela soulève des questions cruciales concernant la robustesse, la sécurité et la nécessité d’une supervision humaine. S’assurer que l’agent Orchestrateur fait le bon choix face à une application inconnue est un défi majeur. Selon Xu, rendre des agents comme CoAct-1 robustes pour les logiciels d’entreprise personnalisés implique une formation approfondie dans des environnements simulés réalistes. L’objectif ultime est un système où l’agent peut apprendre des agents humains, s’entraîner dans un environnement de test (sandbox), puis opérer en direct sous la direction et les garde-fous humains. La capacité de l’agent Programmeur à exécuter son propre code introduit également des préoccupations de sécurité évidentes, en particulier le risque d’exécuter du code nuisible basé sur des requêtes utilisateur ambiguës. Xu souligne qu’un confinement robuste est primordial, le contrôle d’accès et le sandboxing étant essentiels. Un humain doit comprendre les implications et accorder l’accès à l’IA pour la sécurité. Le sandboxing et les garde-fous seront essentiels pour valider le comportement de l’agent avant le déploiement sur des systèmes sensibles. En fin de compte, pour l’avenir prévisible, surmonter l’ambiguïté nécessitera probablement une implication humaine. Xu envisage une approche progressive, commençant par un humain dans la boucle pour toutes les tâches, certaines atteignant éventuellement une autonomie complète. Cependant, pour les opérations critiques, la validation humaine restera cruciale, garantissant la sécurité et la précision.