CoAct-1: Los Agentes de IA de Salesforce Codifican y Hacen Clic para Tareas GUI Más Rápidas
Investigadores de Salesforce y la Universidad del Sur de California han revelado una técnica novedosa diseñada para dotar a los agentes de IA de una capacidad híbrida: ejecutar código y, al mismo tiempo, navegar por interfaces gráficas de usuario (GUI). Este innovador sistema, denominado CoAct-1, representa un avance significativo, combinando la precisión del scripting con la interacción intuitiva de los métodos tradicionales de “apuntar y hacer clic” para acelerar los flujos de trabajo y reducir drásticamente los errores. Al permitir que los agentes eviten la naturaleza a menudo frágil e ineficiente de los clics del ratón para tareas que se manejan mejor de forma programática, CoAct-1 establece un nuevo referente en el rendimiento de los agentes, realizando tareas informáticas complejas en significativamente menos pasos que los métodos anteriores. Este avance promete una automatización más robusta y escalable, abriendo puertas a aplicaciones generalizadas en el mundo real.
Los agentes de uso informático actuales se basan predominantemente en modelos de IA que interpretan información visual y lenguaje para imitar la interacción humana con un ratón y un teclado. Si bien estos agentes basados en GUI pueden realizar una variedad de tareas, con frecuencia fallan cuando se enfrentan a flujos de trabajo largos y complejos, particularmente dentro de aplicaciones con menús densos y numerosas opciones, como las suites de productividad de oficina. Considere, por ejemplo, una tarea que requiere que un agente localice una tabla específica dentro de una hoja de cálculo, filtre su contenido y luego la guarde como un nuevo archivo. Dicha operación exige una secuencia precisa y extendida de manipulaciones de la GUI. Aquí es precisamente donde surge la fragilidad. Como señalan los investigadores en su artículo, los agentes existentes a menudo tienen dificultades con la ambigüedad visual —distinguir entre iconos o elementos de menú visualmente similares— y la probabilidad acumulada de cometer un solo error a lo largo de una secuencia larga. Un solo clic erróneo o una mala interpretación de un elemento de la interfaz de usuario puede descarrilar una tarea completa.
Para mitigar estos desafíos, muchos investigadores se han centrado en aumentar los agentes GUI con planificadores de alto nivel, empleando potentes modelos de razonamiento para descomponer el objetivo general de un usuario en una serie de subtareas más pequeñas y manejables. Si bien este enfoque estructurado mejora el rendimiento, no resuelve fundamentalmente el problema de navegar por menús y hacer clic en botones, incluso para operaciones que podrían completarse de manera más directa y fiable con unas pocas líneas de código.
Aquí es donde CoAct-1, abreviatura de “Computer-using Agent with Coding as Actions” (Agente de uso informático con codificación como acciones), ofrece una solución transformadora. Diseñado para fusionar las fortalezas intuitivas y similares a las humanas de la manipulación GUI con la precisión, fiabilidad y eficiencia de la interacción directa con el sistema a través de código, CoAct-1 opera como un equipo colaborativo de tres agentes especializados: un Orquestador, un Programador y un Operador GUI. El Orquestador funciona como el planificador central, analizando el objetivo del usuario, desglosándolo en subtareas y delegando inteligentemente cada una al agente más apropiado. Las operaciones de backend, como la gestión de archivos o el procesamiento de datos, se asignan al Programador, que escribe y ejecuta hábilmente scripts de Python o Bash. Para las tareas de frontend que requieren clics de botones o navegación de interfaz visual, el Orquestador remite al Operador GUI, un modelo de IA diseñado específicamente para la interacción visual. Esta delegación dinámica permite a CoAct-1 evitar estratégicamente secuencias GUI ineficientes en favor de una ejecución de código robusta y de un solo intento cuando sea adecuado, mientras sigue aprovechando la interacción visual para tareas donde sigue siendo indispensable. El flujo de trabajo es iterativo, y cada finalización de subtarea genera un resumen y una captura de pantalla de vuelta al Orquestador, que luego determina la acción subsiguiente o concluye la tarea. Tanto el Programador como el Operador GUI utilizan intérpretes sofisticados para probar y refinar sus acciones, asegurando la precisión.
Las capacidades de CoAct-1 se probaron rigurosamente en OSWorld, un benchmark completo que presenta 369 tareas del mundo real que abarcan navegadores, entornos de desarrollo integrados y aplicaciones de oficina. Los resultados son convincentes: CoAct-1 logró una nueva tasa de éxito de vanguardia del 60.76%. Las ganancias de rendimiento fueron particularmente pronunciadas en categorías donde el control programático ofrece una ventaja clara, como las tareas a nivel del sistema operativo y los flujos de trabajo de múltiples aplicaciones. Por ejemplo, considere una tarea a nivel del sistema operativo como encontrar todos los archivos de imagen dentro de una estructura de carpetas compleja, cambiar su tamaño y luego comprimir todo el directorio. Un agente puramente basado en GUI necesitaría una secuencia larga y propensa a errores de clics y arrastres. CoAct-1, por el contrario, puede delegar todo este flujo de trabajo a su agente Programador, que puede realizar la tarea con un único script robusto. Más allá de las tasas de éxito más altas, el sistema es drásticamente más eficiente, resolviendo tareas en un promedio de solo 10.15 pasos, una mejora notable sobre los 15.22 pasos que suelen requerir los principales agentes solo GUI como GTA-1. Esta eficiencia es crítica, ya que los investigadores observaron una tendencia clara: las tareas que requieren más acciones tienen más probabilidades de fallar. Al reducir el número de pasos, CoAct-1 no solo acelera la finalización de las tareas, sino que, lo que es más importante, minimiza las oportunidades de error, allanando un camino más robusto y escalable hacia la automatización informática generalizada.
Las implicaciones potenciales de esta tecnología se extienden mucho más allá de la productividad general, ofreciendo un valor significativo a los líderes empresariales que buscan automatizar procesos complejos de múltiples herramientas donde el acceso completo a la API es a menudo un lujo. Ran Xu, coautor del artículo y Director de Investigación de IA Aplicada en Salesforce, destaca el soporte al cliente como un excelente ejemplo. Los agentes de servicio frecuentemente utilizan una amplia gama de herramientas —desde plataformas generales como Salesforce hasta aplicaciones específicas de la industria como EPIC para atención médica, junto con numerosas herramientas personalizadas— para atender las solicitudes de los clientes. Muchas de estas herramientas carecen de acceso a la API, lo que las convierte en candidatas ideales para CoAct-1, que puede aprovechar cualquier método de interacción disponible, ya sea API, código o interacción directa con la pantalla. Xu también identifica aplicaciones de alto valor en ventas, como la prospección a gran escala y la contabilidad automatizada, y en marketing para tareas como la segmentación de clientes y la generación de activos de campaña.
A pesar de su impresionante rendimiento de referencia, los entornos empresariales del mundo real presentan desafíos únicos, incluido el software heredado y las interfaces de usuario impredecibles. Esto plantea preguntas críticas sobre la robustez, la seguridad y la necesidad de supervisión humana. Asegurar que el agente Orquestador tome la decisión correcta cuando se enfrenta a una aplicación desconocida es un desafío central. Según Xu, hacer que agentes como CoAct-1 sean robustos para el software empresarial personalizado implica una capacitación exhaustiva en entornos simulados realistas. El objetivo final es un sistema donde el agente pueda aprender de los agentes humanos, entrenar en un entorno aislado (sandbox) y luego operar en vivo bajo la guía y las salvaguardas humanas. La capacidad del agente Programador para ejecutar su propio código también introduce preocupaciones obvias de seguridad, particularmente el riesgo de ejecutar código dañino basado en solicitudes de usuario ambiguas. Xu enfatiza que la contención robusta es primordial, siendo el control de acceso y el sandboxing clave. Un humano debe comprender las implicaciones y otorgar acceso a la IA por seguridad. El sandboxing y las salvaguardas serán críticos para validar el comportamiento del agente antes de su implementación en sistemas sensibles. En última instancia, en el futuro previsible, superar la ambigüedad probablemente requerirá la participación humana. Xu vislumbra un enfoque por fases, comenzando con un humano en el bucle para todas las tareas, y algunas eventualmente logrando la autonomía total. Sin embargo, para operaciones de misión crítica, la validación humana seguirá siendo crucial, garantizando la seguridad y la precisión.