El Agente ChatGPT de OpenAI: Control de PC y Automatización de Tareas Avanzadas
OpenAI ha introducido el agente ChatGPT, una evolución significativa de su modelo insignia de inteligencia artificial, ahora equipado con una computadora virtual y un conjunto de herramientas integrado. Esta actualización empodera a la IA para ejecutar tareas intrincadas y de múltiples pasos que antes estaban fuera de su alcance, incluyendo el control directo de la computadora de un usuario y la realización de tareas en su nombre. Esta versión más capaz, aunque aún requiere una considerable supervisión humana, surgió poco antes de que investigadores de Meta informaran que sus propios modelos de IA exhibían signos de auto-mejora independiente, y también precedió al lanzamiento de la última iteración del chatbot de OpenAI, GPT-5.
Con el agente ChatGPT, los usuarios ahora pueden instruir al modelo de lenguaje grande (LLM) no solo para analizar información o recopilar datos, sino también para actuar sobre esos datos. Por ejemplo, uno podría ordenar al agente que escanee un calendario y resuma los próximos eventos y recordatorios, o que procese un gran conjunto de datos y lo condense en una sinopsis concisa o una presentación de diapositivas. Mientras que un LLM tradicional podría proporcionar recetas para un desayuno de estilo japonés, el agente ChatGPT podría ir un paso más allá, planificando y comprando todos los ingredientes necesarios para un número específico de invitados.
A pesar de sus capacidades mejoradas, el nuevo modelo enfrenta limitaciones inherentes. Como todos los modelos de IA, su razonamiento espacial sigue siendo débil, lo que dificulta tareas como la planificación de rutas físicas. También carece de una verdadera memoria persistente, procesando la información en el momento sin una recuperación confiable o la capacidad de referenciar interacciones pasadas más allá del contexto inmediato.
No obstante, el agente ChatGPT demuestra mejoras notables en la propia evaluación comparativa de OpenAI. En “Humanity’s Last Exam” (El Último Examen de la Humanidad), un benchmark de IA diseñado para evaluar la competencia de un modelo en la respuesta a preguntas de nivel experto en diversas disciplinas, el agente duplicó con creces el porcentaje de precisión, alcanzando un 41.6% en comparación con OpenAI o3 sin herramientas, que obtuvo un 20.3%. También superó significativamente a otras herramientas de OpenAI, así como a una versión de sí mismo que carecía de características integradas como un navegador y una computadora virtual. En el desafiante benchmark de matemáticas “FrontierMath”, el agente ChatGPT, con su completo conjunto de herramientas, superó sustancialmente a los modelos anteriores.
La arquitectura del agente se basa en tres elementos fundamentales derivados de productos anteriores de OpenAI. El primero es ‘Operator’, un agente diseñado para navegar por la web a través de su propio navegador virtual. El segundo, ‘deep research’ (investigación profunda), se centra en examinar y sintetizar grandes cantidades de datos. El componente final integra versiones anteriores de ChatGPT, aprovechando sus fortalezas en la fluidez conversacional y la presentación.
Kofi Nyarko, profesor de la Universidad Estatal de Morgan y director del Laboratorio de Investigación de Ingeniería de Datos y Análisis Predictivo (DEPA), resumió la funcionalidad central del agente: “En esencia, puede navegar autónomamente por la web, generar código, crear archivos, y así sucesivamente, todo bajo supervisión humana”. Sin embargo, Nyarko se apresuró a subrayar que el nuevo agente no es verdaderamente autónomo. Advirtió que “las alucinaciones, la fragilidad de la interfaz de usuario o la mala interpretación pueden llevar a errores. Las salvaguardias incorporadas, como las solicitudes de permiso y la capacidad de interrupción, son esenciales pero no suficientes para eliminar el riesgo por completo”.
OpenAI ha reconocido abiertamente los peligros potenciales que plantea este agente más autónomo, citando sus “altas capacidades biológicas y químicas”. La compañía ha expresado su preocupación de que el agente podría potencialmente ayudar en la creación de armas químicas o biológicas. En comparación con los recursos existentes como un laboratorio de química y un libro de texto, un agente de IA representa lo que los expertos en bioseguridad denominan una “ruta de escalada de capacidades”. La IA puede acceder y sintetizar rápidamente innumerables recursos, fusionar conocimientos de diversos campos científicos, ofrecer resolución de problemas iterativa similar a un mentor experto, navegar por sitios web de proveedores, completar formularios de pedido e incluso ayudar a eludir las verificaciones básicas de verificación.
Además, con su computadora virtual, el agente puede interactuar autónomamente con archivos, sitios web y herramientas en línea, amplificando su potencial de daño si se usa indebidamente. El riesgo de filtraciones o manipulación de datos, junto con comportamientos desalineados como el fraude financiero, se intensifica en caso de un ataque de inyección de comandos, donde se incrustan sutilmente instrucciones maliciosas para secuestrar el comportamiento de la IA. Nyarko señaló además que estos riesgos se suman a los inherentes a los modelos de IA tradicionales y los LLM. Detalló preocupaciones más amplias para los agentes de IA, incluyendo cómo las operaciones autónomas podrían amplificar errores, introducir sesgos de datos públicos, complicar los marcos de responsabilidad y fomentar involuntariamente la dependencia psicológica.
En respuesta a estas nuevas amenazas, los ingenieros de OpenAI han fortalecido una serie de salvaguardias. Estas medidas incluyen un modelado integral de amenazas, capacitación de rechazo de doble uso —que enseña al modelo a rechazar solicitudes dañinas que involucren datos con aplicaciones tanto beneficiosas como maliciosas—, programas de recompensas por errores y “red-teaming” experto, un proceso de ataque activo al sistema para identificar debilidades, con un enfoque específico en la biodefensa. A pesar de estos esfuerzos, una evaluación de gestión de riesgos realizada en julio de 2025 por SaferAI, una organización sin fines de lucro centrada en la seguridad, calificó las políticas de gestión de riesgos de OpenAI como “débiles”, otorgándoles solo el 33% de un posible 100%. OpenAI también recibió una calificación C en el Índice de Seguridad de IA compilado por el Future of Life Institute, una destacada organización de seguridad de IA.