CoAct-1: Agente de IA Híbrido Establece Nuevo Récord en OSWorld
Un equipo colaborativo de investigadores de la Universidad del Sur de California, Salesforce AI y la Universidad de Washington ha presentado CoAct-1, un innovador sistema multiagente diseñado para avanzar significativamente en la operación autónoma de computadoras. Este sistema innovador redefine cómo los agentes de IA interactúan con las computadoras al elevar la codificación directa a una acción primaria, poniéndola a la par con la manipulación tradicional de la interfaz gráfica de usuario (GUI). Este cambio fundamental aborda desafíos de larga data relacionados con la eficiencia y fiabilidad de la IA en el manejo de tareas informáticas complejas y de múltiples pasos. En el desafiante benchmark OSWorld, CoAct-1 ha establecido un nuevo punto de referencia de rendimiento, logrando una tasa de éxito sin precedentes del 60.76%, lo que lo convierte en el primer agente de IA en superar el umbral del 60%.
Los agentes de IA convencionales que utilizan computadoras suelen depender exclusivamente de la interacción GUI basada en píxeles, imitando a los usuarios humanos al navegar por interfaces, hacer clic en elementos y escribir. Si bien este enfoque les permite replicar flujos de trabajo humanos, a menudo resulta frágil e ineficiente, particularmente para tareas intrincadas que involucran interfaces desordenadas, flujos de trabajo que abarcan múltiples aplicaciones o operaciones complejas del sistema operativo. Incluso un solo clic erróneo puede descarrilar un flujo de trabajo completo, y a medida que las tareas aumentan en complejidad, el número de pasos requeridos puede dispararse drásticamente. Se han explorado esfuerzos para mitigar estos problemas, como aumentar los agentes GUI con planificadores de alto nivel, pero estos métodos finalmente siguen limitados por las limitaciones inherentes de los espacios de acción centrados en GUI, que restringen tanto la eficiencia como la robustez general.
CoAct-1 introduce un enfoque fundamentalmente diferente a través de su arquitectura híbrida, que integra tres agentes de IA especializados. En el núcleo se encuentra el Orquestador, un planificador de alto nivel responsable de desglosar tareas complejas en subtareas más pequeñas. Crucialmente, el Orquestador delega dinámicamente cada subtarea al Programador o al Operador GUI, según los requisitos específicos de la tarea. El agente Programador maneja operaciones de backend, como la gestión de archivos, el procesamiento de datos o la configuración del entorno, ejecutando scripts directos de Python o Bash, evitando así las secuencias de acciones GUI a menudo engorrosas y propensas a errores. Complementando esto, el Operador GUI utiliza un modelo de IA capaz de interpretar información visual y lenguaje para interactuar con interfaces gráficas cuando la navegación de interfaz de usuario similar a la humana es indispensable. Este modelo híbrido permite a CoAct-1 sustituir estratégicamente las operaciones frágiles y largas de ratón-teclado por una ejecución de código concisa y fiable, al tiempo que aprovecha las interacciones GUI precisamente cuando es necesario.
Las capacidades del sistema fueron rigurosamente evaluadas en OSWorld, un benchmark líder que comprende 369 tareas diversas que abarcan suites de productividad de oficina, entornos de desarrollo integrados (IDEs), navegadores web, gestores de archivos y flujos de trabajo multiaplicación. Cada tarea en OSWorld refleja objetivos de lenguaje del mundo real y se evalúa utilizando un sistema de puntuación granular basado en reglas. El rendimiento de CoAct-1 fue notable: logró una tasa de éxito general del 60.76% en la categoría de más de 100 pasos, superando a frameworks líderes como GTA-1 (53.10%), OpenAI CUA 4o (31.40%) y UI-TARS-1.5 (29.60%). Además, demostró una eficiencia superior, completando tareas exitosas con un promedio de solo 10.15 pasos, significativamente menos que los 15.22 pasos de GTA-1 o los 14.90 pasos de UI-TARS. Si bien OpenAI CUA 4o logró menos pasos (6.14), su tasa de éxito fue considerablemente menor, del 31.40%, lo que destaca el equilibrio de velocidad y precisión de CoAct-1. El sistema exhibió una fuerza particular en flujos de trabajo multiaplicación (47.88% de éxito, en comparación con el 38.34% de GTA-1) y tareas del sistema operativo (75.00%), liderando o igualando consistentemente el mejor rendimiento en los dominios de productividad e IDE.
Varias ideas clave iluminan los impulsores detrás de las impresionantes ganancias de CoAct-1. La capacidad de realizar acciones de codificación reemplaza directamente numerosas secuencias GUI redundantes y propensas a errores; por ejemplo, un solo script puede automatizar el cambio de tamaño de imágenes por lotes o manipulaciones avanzadas de archivos que de otro modo requerirían docenas de clics, reduciendo drásticamente tanto los pasos como los posibles puntos de falla. La delegación dinámica del Orquestador garantiza la utilización óptima de las acciones de codificación y GUI, adaptándose a las necesidades de la tarea. Además, la investigación indica que la integración de modelos de IA subyacentes más potentes mejora significativamente el rendimiento; la configuración que logró la puntuación máxima del 60.76% utilizó OpenAI CUA 4o para el Operador GUI, OpenAI o3 para el Orquestador y o4-mini para el Programador. Esta correlación subraya que la eficiencia del sistema contribuye directamente a su fiabilidad, ya que menos pasos reducen inherentemente las oportunidades de error, lo cual es un fuerte predictor del éxito en la finalización de tareas.
Al hacer de la codificación una acción de sistema de primera clase junto con la manipulación de la GUI, CoAct-1 logra un salto significativo tanto en la tasa de éxito como en la eficiencia de los agentes informáticos autónomos. Su arquitectura híbrida y su lógica de ejecución dinámica establecen un nuevo punto de referencia para el campo, anunciando avances robustos en la automatización informática del mundo real.