CoAct-1 : L'agent IA hybride qui redéfinit l'automatisation informatique
Une équipe collaborative de chercheurs de l’Université de Californie du Sud, de Salesforce AI et de l’Université de Washington a dévoilé CoAct-1, un système multi-agents révolutionnaire conçu pour faire progresser significativement l’opération autonome des ordinateurs. Ce système innovant redéfinit la manière dont les agents IA interagissent avec les ordinateurs en élevant le codage direct au rang d’action primaire, le plaçant au même niveau que la manipulation traditionnelle de l’interface utilisateur graphique (GUI). Ce changement fondamental aborde les défis de longue date liés à l’efficacité et à la fiabilité de l’IA dans la gestion de tâches informatiques complexes et multi-étapes. Sur le benchmark exigeant OSWorld, CoAct-1 a établi une nouvelle référence de performance, atteignant un taux de succès sans précédent de 60,76 %, ce qui en fait le premier agent IA à dépasser le seuil de 60 %.
Les agents IA conventionnels utilisant des ordinateurs s’appuient généralement exclusivement sur l’interaction GUI basée sur les pixels, imitant les utilisateurs humains en naviguant dans les interfaces, en cliquant sur des éléments et en tapant. Bien que cette approche leur permette de reproduire les flux de travail humains, elle s’avère souvent fragile et inefficace, en particulier pour les tâches complexes impliquant des interfaces encombrées, des flux de travail s’étendant sur plusieurs applications, ou des opérations complexes du système d’exploitation. Même un seul clic erroné peut faire dérailler un flux de travail entier, et à mesure que les tâches gagnent en complexité, le nombre d’étapes requises peut augmenter considérablement. Des efforts pour atténuer ces problèmes, tels que l’augmentation des agents GUI avec des planificateurs de haut niveau, ont été explorés, mais ces méthodes restent finalement contraintes par les limitations inhérentes aux espaces d’action centrés sur la GUI, qui restreignent à la fois l’efficacité et la robustesse globale.
CoAct-1 introduit une approche fondamentalement différente grâce à son architecture hybride, intégrant trois agents IA spécialisés. Au cœur se trouve l’Orchestrateur, un planificateur de haut niveau responsable de la décomposition des tâches complexes en sous-tâches plus petites. De manière cruciale, l’Orchestrateur délègue dynamiquement chaque sous-tâche soit au Programmeur soit à l’Opérateur GUI, en fonction des exigences spécifiques de la tâche. L’agent Programmeur gère les opérations backend — telles que la gestion de fichiers, le traitement de données ou la configuration d’environnement — en exécutant des scripts Python ou Bash directs, contournant ainsi les séquences d’actions GUI souvent fastidieuses et sujettes aux erreurs. En complément, l’Opérateur GUI utilise un modèle IA capable d’interpréter les informations visuelles et le langage pour interagir avec les interfaces graphiques lorsque la navigation UI de type humain est indispensable. Ce modèle hybride permet à CoAct-1 de substituer stratégiquement les opérations souris-clavier fragiles et longues par une exécution de code concise et fiable, tout en tirant parti des interactions GUI précisément lorsque cela est nécessaire.
Les capacités du système ont été rigoureusement évaluées sur OSWorld, un benchmark de premier plan comprenant 369 tâches diverses englobant les suites de productivité bureautique, les environnements de développement intégrés (IDE), les navigateurs web, les gestionnaires de fichiers et les flux de travail multi-applications. Chaque tâche dans OSWorld reflète des objectifs linguistiques du monde réel et est évaluée à l’aide d’un système de notation granulaire basé sur des règles. La performance de CoAct-1 a été remarquable : il a atteint un taux de succès global de 60,76 % dans la catégorie des plus de 100 étapes, surpassant les frameworks leaders tels que GTA-1 (53,10 %), OpenAI CUA 4o (31,40 %) et UI-TARS-1.5 (29,60 %). De plus, il a démontré une efficacité supérieure, complétant les tâches réussies avec une moyenne de seulement 10,15 étapes, significativement moins que les 15,22 étapes de GTA-1 ou les 14,90 étapes de UI-TARS. Bien qu’OpenAI CUA 4o ait réalisé moins d’étapes (6,14), son taux de succès était considérablement plus bas à 31,40 %, soulignant l’équilibre entre vitesse et précision de CoAct-1. Le système a montré une force particulière dans les flux de travail multi-applications (47,88 % de succès, contre 38,34 % pour GTA-1) et les tâches du système d’exploitation (75,00 %), menant ou égalant constamment les meilleures performances dans les domaines de la productivité et des IDE.
Plusieurs informations clés éclairent les facteurs derrière les gains impressionnants de CoAct-1. La capacité à effectuer des actions de codage remplace directement de nombreuses séquences GUI redondantes et sujettes aux erreurs ; par exemple, un seul script peut automatiser le redimensionnement d’images par lots ou des manipulations de fichiers avancées qui nécessiteraient autrement des dizaines de clics, réduisant drastiquement à la fois les étapes et les points de défaillance potentiels. La délégation dynamique de l’Orchestrateur assure une utilisation optimale des actions de codage et GUI, s’adaptant aux besoins de la tâche. De plus, la recherche indique que l’intégration de modèles IA sous-jacents plus puissants améliore significativement les performances ; la configuration atteignant le score le plus élevé de 60,76 % a utilisé OpenAI CUA 4o pour l’Opérateur GUI, OpenAI o3 pour l’Orchestrateur et o4-mini pour le Programmeur. Cette corrélation souligne que l’efficacité du système contribue directement à sa fiabilité, car moins d’étapes réduisent intrinsèquement les opportunités d’erreur, ce qui est un fort prédicteur du succès de l’achèvement des tâches.
En faisant du codage une action système de première classe aux côtés de la manipulation GUI, CoAct-1 réalise un bond significatif à la fois dans le taux de succès et l’efficacité des agents informatiques autonomes. Son architecture hybride et sa logique d’exécution dynamique établissent une nouvelle référence pour le domaine, annonçant des avancées robustes dans l’automatisation informatique du monde réel.