ChatGPT Agent de OpenAI: Control Total del PC y Automatización de Tareas Explicados
OpenAI ha presentado ChatGPT Agent, una evolución significativa de su modelo de inteligencia artificial insignia. Esta iteración avanzada viene equipada con un entorno de computación virtual y un conjunto de herramientas integrado, transformando fundamentalmente sus capacidades. Ya no limitado a un mero análisis o recuperación de datos, el agente ahora puede ejecutar tareas complejas y de múltiples pasos controlando directamente el ordenador de un usuario. Este salto en funcionalidad, que aún requiere una considerable intervención y supervisión humana, llegó en un período de rápido desarrollo de la IA, poco antes de que los investigadores de Meta informaran que sus modelos de IA mostraban signos de auto-mejora independiente y antes del propio lanzamiento de GPT-5 por parte de OpenAI.
Con ChatGPT Agent, los usuarios pueden instruir al gran modelo de lenguaje no solo para procesar información, sino para actuar sobre ella. Por ejemplo, se podría ordenar al agente que revise un calendario y compile un informe sobre los próximos eventos, o que examine un vasto conjunto de datos y lo sintetice en un resumen conciso o una presentación. Mientras que los modelos de lenguaje grandes anteriores podrían proporcionar recetas para un desayuno de estilo japonés, ChatGPT Agent posee la capacidad de planificar completamente la comida e incluso comprar los ingredientes necesarios para un número específico de invitados.
A pesar de sus impresionantes nuevas capacidades, el modelo no está exento de limitaciones. Como todos los modelos de IA actuales, su razonamiento espacial sigue siendo débil, lo que dificulta las tareas que implican navegación física o planificación. Además, carece de una verdadera memoria persistente, procesando la información en tiempo real sin una recuperación fiable o la capacidad de referenciar interacciones pasadas más allá del contexto conversacional inmediato.
Sin embargo, ChatGPT Agent muestra mejoras notables en los benchmarks internos de OpenAI. En “Humanity’s Last Exam”, un benchmark de IA que evalúa la capacidad de un modelo para responder preguntas de nivel experto en diversas disciplinas, el agente duplicó con creces el porcentaje de precisión de OpenAI o3 sin herramientas, logrando un 41.6% en comparación con el 20.3%. También superó significativamente a otras herramientas de OpenAI y a una versión de sí mismo que carecía de herramientas integradas como un navegador y un ordenador virtual. En el desafiante benchmark “FrontierMath”, ChatGPT Agent, con su completo conjunto de herramientas, superó de nuevo a los modelos anteriores por un amplio margen.
La arquitectura del agente se basa en tres pilares fundamentales derivados de innovaciones anteriores de OpenAI. El primero es ‘Operator’, un agente diseñado para navegar por la web de forma autónoma para los usuarios. El segundo es ‘deep research’, desarrollado para peinar y sintetizar eficientemente grandes conjuntos de datos. El componente final integra versiones anteriores del propio ChatGPT, reconocidas por su fluidez conversacional y capacidades de presentación. Según Kofi Nyarko, profesor de la Universidad Estatal de Morgan y director del Laboratorio de Investigación de Ingeniería de Datos y Análisis Predictivo (DEPA), esta integración significa que el agente “puede navegar de forma autónoma por la web, generar código, crear archivos, y así sucesivamente, todo bajo supervisión humana”.
Nyarko, sin embargo, rápidamente enfatizó que el nuevo agente está lejos de ser completamente autónomo. Advirtió que “las alucinaciones, la fragilidad de la interfaz de usuario o la mala interpretación pueden llevar a errores. Las salvaguardias incorporadas, como las solicitudes de permiso y la capacidad de interrupción, son esenciales pero no suficientes para eliminar el riesgo por completo”.
OpenAI misma ha reconocido abiertamente los peligros inherentes que plantea la mayor autonomía del agente. Representantes de la compañía han declarado que ChatGPT Agent posee “altas capacidades biológicas y químicas”, lo que plantea preocupaciones de que podría ayudar potencialmente en la creación de armas químicas o biológicas. Los expertos en bioseguridad ven a los agentes de IA como este como una “vía de escalada de capacidades” en comparación con los recursos existentes como un laboratorio de química y un libro de texto. Una IA puede recurrir instantáneamente a innumerables recursos, sintetizar datos de diversas disciplinas científicas, proporcionar resolución de problemas iterativa similar a un mentor experto, navegar por sitios web de proveedores, llenar formularios de pedido e incluso ayudar a eludir las verificaciones básicas.
Con su ordenador virtual, el agente también puede interactuar de forma autónoma con archivos, sitios web y herramientas en línea, amplificando el potencial de daño si se usa indebidamente. El riesgo de filtraciones de datos, manipulación de datos y comportamiento desalineado como el fraude financiero se ve significativamente incrementado, particularmente en caso de un ataque de inyección de prompt, donde los comandos maliciosos se incrustan sutilmente en las entradas del usuario, u otras formas de secuestro. Estos riesgos, señaló Nyarko, se suman a los ya implícitos en los modelos de IA tradicionales y los grandes modelos de lenguaje, incluida la amplificación de errores, la introducción de sesgos de datos públicos, la complicación de los marcos de responsabilidad y el fomento involuntario de la dependencia psicológica.
En respuesta a las nuevas amenazas planteadas por un modelo más agéntico, los ingenieros de OpenAI también han reforzado una serie de salvaguardias. Estas medidas incluyen un modelado integral de amenazas, capacitación en rechazo de doble uso —donde se enseña al modelo a rechazar solicitudes dañinas que involucran datos que podrían tener aplicaciones tanto beneficiosas como maliciosas—, programas de recompensas por errores y ejercicios expertos de “red-teaming” centrados en la biodefensa. A pesar de estos esfuerzos, una evaluación de gestión de riesgos realizada en julio de 2025 por SaferAI, una organización sin fines de lucro centrada en la seguridad, evaluó las políticas de gestión de riesgos de OpenAI como “débiles”, asignándoles una puntuación del 33% sobre un posible 100%. De manera similar, OpenAI recibió solo una calificación C en el Índice de Seguridad de la IA compilado por el Future of Life Institute, una destacada organización de seguridad de la IA.