La Ambición de Agentes de OpenAI: De Habilidades Matemáticas a la IA General

Cuando Hunter Lightman se unió a OpenAI como investigador en 2022, fue testigo del rápido ascenso de ChatGPT, uno de los productos de más rápido crecimiento en la historia. Mientras tanto, Lightman formaba parte de un equipo, conocido como MathGen, que trabajaba discretamente en un desafío fundamental: enseñar a los modelos de OpenAI a sobresalir en las competiciones de matemáticas de la escuela secundaria. Este esfuerzo resultaría fundamental para la búsqueda líder en la industria de OpenAI de modelos de razonamiento de IA, la tecnología central requerida para los agentes de IA que pueden realizar tareas informáticas complejas de manera muy similar a un humano.

“Estábamos tratando de mejorar los modelos en el razonamiento matemático, en lo que en ese momento no eran muy buenos”, explicó Lightman, reflexionando sobre el trabajo inicial de MathGen. Si bien los sistemas de IA actuales de OpenAI aún enfrentan desafíos como las “alucinaciones” y las dificultades con tareas altamente complejas, sus capacidades de razonamiento matemático han avanzado significativamente. Uno de los modelos de OpenAI obtuvo recientemente una medalla de oro en la Olimpiada Internacional de Matemáticas, una prestigiosa competición para los mejores estudiantes de secundaria. OpenAI cree que estas habilidades de razonamiento mejoradas se traducirán en varios dominios, allanando finalmente el camino para los agentes de propósito general que la compañía ha imaginado durante mucho tiempo.

A diferencia de ChatGPT, que surgió como un “feliz accidente” de una vista previa de investigación discreta a un producto de consumo viral, el desarrollo de agentes de IA por parte de OpenAI ha sido un esfuerzo deliberado de varios años. Como declaró el CEO de OpenAI, Sam Altman, en la primera conferencia de desarrolladores de la compañía en 2023, “Eventualmente, solo le pedirás a la computadora lo que necesitas y ella hará todas estas tareas por ti. Estas capacidades a menudo se conocen en el campo de la IA como agentes. Las ventajas de esto van a ser tremendas”.

Queda por ver si los agentes harán realidad por completo la ambiciosa visión de Altman. Sin embargo, OpenAI tuvo un impacto significativo con el lanzamiento de su primer modelo de razonamiento de IA, o1, en el otoño de 2024. Menos de un año después, los 21 investigadores fundacionales detrás de este avance se han convertido en algunos de los talentos más buscados de Silicon Valley. En particular, Mark Zuckerberg reclutó a cinco de los investigadores de o1 para la nueva unidad de Meta centrada en la superinteligencia, ofreciendo paquetes de compensación que superaban los 100 millones de dólares. Uno de ellos, Shengjia Zhao, fue nombrado recientemente científico jefe de Meta Superintelligence Labs.

El ascenso de los modelos de razonamiento y los agentes de OpenAI está profundamente conectado con una técnica de entrenamiento de aprendizaje automático conocida como aprendizaje por refuerzo (RL). RL proporciona a los modelos de IA retroalimentación sobre la corrección de sus elecciones dentro de entornos simulados. Esta técnica ha estado en uso durante décadas, demostrada de manera famosa en 2016 cuando AlphaGo de Google DeepMind, un sistema de IA entrenado con RL, obtuvo atención global al derrotar a un campeón mundial en el juego de mesa Go. Alrededor del momento del triunfo de AlphaGo, Andrej Karpathy, uno de los primeros empleados de OpenAI, comenzó a explorar cómo se podría aprovechar el RL para crear un agente de IA capaz de usar una computadora. Sin embargo, OpenAI tardaría años en desarrollar los modelos y las técnicas de entrenamiento necesarios.

Para 2018, OpenAI había sido pionera en su primer modelo de lenguaje grande de la serie GPT, preentrenado con vastos datos de internet. Si bien los modelos GPT sobresalían en el procesamiento de texto, lo que finalmente llevó a ChatGPT, inicialmente tenían dificultades con las matemáticas básicas. Un avance significativo ocurrió en 2023, denominado internamente “Q*” y luego “Strawberry”. Esto implicó combinar modelos de lenguaje grandes (LLM), aprendizaje por refuerzo y una técnica llamada computación en tiempo de prueba. Esta última proporcionó a los modelos tiempo y potencia de procesamiento adicionales para planificar y resolver problemas, verificando sus pasos antes de proporcionar una respuesta. Esta innovación también permitió un nuevo enfoque llamado “cadena de pensamiento” (CoT), que mejoró drásticamente el rendimiento de la IA en preguntas de matemáticas desconocidas.

“Pude ver que el modelo comenzaba a razonar”, señaló El Kishky, un investigador. “Notaba errores y retrocedía, se frustraba. Realmente se sentía como leer los pensamientos de una persona”. Si bien las técnicas individuales no eran completamente novedosas, la combinación única de ellas por parte de OpenAI condujo directamente a Strawberry, lo que a su vez allanó el camino para o1. La compañía rápidamente reconoció que las habilidades de planificación y verificación de hechos inherentes a estos modelos de razonamiento de IA podrían ser invaluables para potenciar a los agentes de IA. “Habíamos resuelto un problema contra el que me había estado golpeando la cabeza durante un par de años”, relató Lightman, describiéndolo como uno de los momentos más emocionantes de su carrera de investigación.

Con la llegada de los modelos de razonamiento de IA, OpenAI identificó dos nuevas vías para mejorar la IA: aplicar más potencia computacional durante el post-entrenamiento y dar a los modelos más tiempo y potencia de procesamiento al generar una respuesta. “OpenAI, como compañía, piensa mucho no solo en cómo son las cosas, sino en cómo van a escalar”, explicó Lightman. Tras el avance de Strawberry en 2023, OpenAI estableció un equipo de “Agentes”, dirigido por el investigador Daniel Selsam, para avanzar en este nuevo paradigma. El trabajo de este equipo finalmente se integró en el proyecto más grande del modelo de razonamiento o1, con líderes clave que incluyen al cofundador de OpenAI Ilya Sutskever, el director de investigación Mark Chen y el científico jefe Jakub Pachocki.

El desarrollo de o1 requirió desviar recursos preciosos, principalmente talento y GPU. A lo largo de la historia de OpenAI, los investigadores a menudo han tenido que negociar por recursos, y demostrar avances era un método probado para asegurarlos. “Uno de los componentes centrales de OpenAI es que todo en la investigación es de abajo hacia arriba”, dijo Lightman. “Cuando mostramos la evidencia [para o1], la compañía dijo: ‘Esto tiene sentido, vamos a impulsarlo’”. Algunos exempleados sugieren que la misión general de la startup de desarrollar Inteligencia Artificial General (AGI) fue un factor clave para lograr avances en los modelos de razonamiento de IA. Al priorizar el desarrollo de los modelos de IA más inteligentes posibles sobre la productización inmediata, OpenAI pudo invertir fuertemente en o1, un lujo que no siempre se permitían los laboratorios de IA de la competencia. Esta decisión de adoptar nuevos métodos de entrenamiento resultó ser perspicaz, ya que a finales de 2024, varios laboratorios de IA líderes comenzaron a observar rendimientos decrecientes de los modelos creados a través de la escalada de preentrenamiento tradicional. Hoy en día, gran parte del impulso del campo de la IA proviene de los avances en los modelos de razonamiento.

El concepto de “razonamiento” de la IA plantea preguntas filosóficas. En muchos sentidos, el objetivo final de la investigación de la IA es emular la inteligencia humana. Desde el lanzamiento de o1, la experiencia de usuario de ChatGPT ha incorporado características más humanas como “pensar” y “razonar”. Cuando se le preguntó si los modelos de OpenAI realmente razonan, El Kishky ofreció una perspectiva de la informática: “Estamos enseñando al modelo cómo gastar eficientemente la computación para obtener una respuesta. Entonces, si lo defines de esa manera, sí, está razonando”. Lightman se centra en los resultados de los modelos en lugar de establecer paralelismos directos con los cerebros humanos. “Si el modelo está haciendo cosas difíciles, entonces está haciendo cualquier aproximación necesaria de razonamiento que necesite para hacerlo”, dijo. “Podemos llamarlo razonamiento, porque se parece a estos rastros de razonamiento, pero todo es solo un sustituto para tratar de hacer herramientas de IA que sean realmente poderosas y útiles para muchas personas”. Si bien los investigadores de OpenAI reconocen posibles desacuerdos sobre sus definiciones de razonamiento —y, de hecho, han surgido críticos—, sostienen que las capacidades de los modelos son primordiales. Otros investigadores de IA tienden a concurrir. Nathan Lambert, investigador de IA de la organización sin fines de lucro AI2, compara los modelos de razonamiento de IA con los aviones, señalando que ambos son sistemas hechos por el hombre inspirados en la naturaleza (razonamiento humano y vuelo de aves, respectivamente) pero operan a través de mecanismos completamente diferentes. Esto no disminuye su utilidad o su capacidad para lograr resultados similares. Un artículo de posición reciente de investigadores de IA de OpenAI, Anthropic y Google DeepMind acordó colectivamente que los modelos de razonamiento de IA aún no se comprenden completamente, lo que requiere más investigación. Puede que sea demasiado pronto para afirmar definitivamente qué ocurre dentro de ellos.

Actualmente, los agentes de IA en el mercado funcionan mejor en dominios bien definidos y verificables, como la codificación. El agente Codex de OpenAI ayuda a los ingenieros de software con tareas de codificación simples, mientras que los modelos de Anthropic han ganado popularidad en herramientas de codificación de IA como Cursor y Claude Code, convirtiéndose en algunos de los primeros agentes de IA por los que los usuarios están dispuestos a pagar. Sin embargo, los agentes de IA de propósito general, como el Agente ChatGPT de OpenAI y Comet de Perplexity, todavía tienen dificultades con muchas tareas complejas y subjetivas que la gente desea automatizar. Los intentos de usar estas herramientas para compras en línea o para encontrar estacionamiento a largo plazo a menudo resultan en tiempos de procesamiento prolongados y “errores tontos”.

Estos primeros sistemas de agentes, sin duda, mejorarán. Sin embargo, los investigadores primero deben resolver cómo entrenar mejor los modelos subyacentes para completar tareas más subjetivas. “Como muchos problemas en el aprendizaje automático, es un problema de datos”, comentó Lightman sobre las limitaciones de los agentes en dominios subjetivos. “Algunas de las investigaciones que realmente me entusiasman ahora mismo son las de cómo entrenar en tareas menos verificables. Tenemos algunas pistas sobre cómo hacer estas cosas”. Noam Brown, investigador de OpenAI que contribuyó tanto al modelo IMO como a o1, explicó que OpenAI posee nuevas técnicas de RL de propósito general que les permiten enseñar a los modelos de IA habilidades que no son fácilmente verificables. Este enfoque fue clave para construir el modelo que obtuvo una medalla de oro en la IMO. El modelo IMO de OpenAI, un sistema de IA más nuevo, genera múltiples agentes que exploran simultáneamente varias ideas antes de seleccionar la respuesta óptima. Este enfoque multiagente está ganando terreno, y Google y xAI lanzaron recientemente modelos de vanguardia que emplean técnicas similares. “Creo que estos modelos serán más capaces en matemáticas, y creo que también serán más capaces en otras áreas de razonamiento”, afirmó Brown. “El progreso ha sido increíblemente rápido. No veo ninguna razón para pensar que se ralentizará”.

Estos avances pueden conducir a mejoras de rendimiento en el próximo modelo GPT-5 de OpenAI. OpenAI espera que GPT-5 afirme su dominio sobre los competidores al ofrecer el mejor modelo de IA para potenciar a los agentes tanto para desarrolladores como para consumidores. Más allá de la capacidad bruta, la compañía también tiene como objetivo simplificar el uso del producto. El Kishky señaló que OpenAI busca desarrollar agentes de IA que comprendan intuitivamente la intención del usuario, eliminando la necesidad de configuraciones específicas. El objetivo es construir sistemas de IA que sepan cuándo utilizar ciertas herramientas y cuánto tiempo “razonar” para una tarea determinada.

Estas ideas pintan un cuadro del ChatGPT definitivo: un agente capaz de realizar cualquier tarea en internet por ti, mientras comprende intuitivamente tus preferencias. Esta visión representa una evolución significativa del ChatGPT actual, y la investigación de OpenAI se mueve inequívocamente en esta dirección. Si bien OpenAI, sin duda, lideró la industria de la IA hace unos años, la compañía ahora enfrenta una formidable variedad de competidores. La pregunta crucial ya no es solo si OpenAI puede ofrecer su futuro agentico, sino si puede hacerlo antes de que rivales como Google, Anthropic, xAI o Meta lo logren primero.

La Ambición de Agentes de OpenAI: De Habilidades Matemáticas a la IA General

Artículos Relacionados

Construyendo Agentes de IA Autoadaptables con Google Gemini y SAGE

Genie 3: La IA de DeepMind crea mundos 3D interactivos y consistentes

DeepMind's Genie 3: Nuevo Modelo Mundial Apunta a la IGA