GPT-5: Filtraciones apuntan a mejora modesta, no un salto para OpenAI

OpenAI se prepara para lanzar GPT-5, su próximo modelo de lenguaje grande insignia, pero las expectativas apuntan a una mejora modesta en lugar de un salto revolucionario. Tras GPT-4, lanzado en marzo de 2023, las pruebas internas de GPT-5 indican progreso en áreas como la programación, las matemáticas y la ejecución de instrucciones complejas, incluida la automatización de flujos de trabajo de servicio al cliente. Sin embargo, el salto anticipado en capacidad es considerablemente menor que el salto sustancial de GPT-3 (2020) a GPT-4 (2023).

Fuentes familiarizadas con las evaluaciones indican que GPT-5 facilitará aplicaciones más fáciles de usar y demostrará una mejor gestión de sus recursos computacionales. A pesar de estos avances, las mejoras generales se describen como incrementales.

Esta meseta observada se alinea con las predicciones hechas por figuras prominentes de la IA. El cofundador de Microsoft, Bill Gates, predijo esto a fines de 2023, y críticos de los LLM como Gary Marcus, el ex científico jefe de OpenAI Ilya Sutskever y Yann LeCun de Meta han sostenido repetidamente que la arquitectura basada en Transformer, que sustenta la mayoría de los modelos de lenguaje grandes actuales, está llegando a sus límites.

Un ejemplo revelador de estos desafíos es el modelo interno “Orion” de OpenAI. Inicialmente desarrollado como un sucesor directo de GPT-4o, Orion no logró ofrecer las ganancias anticipadas. Posteriormente fue lanzado como GPT-4.5 a principios de 2025, en lugar de obtener la designación GPT-5. GPT-4.5 tuvo poco impacto, según se informa, funcionó más lento y costó más que GPT-4o, y rápidamente perdió relevancia. Un problema central, según The Information, fue que las modificaciones de preentrenamiento que funcionaron para modelos más pequeños no escalaron eficazmente a modelos más grandes. Al mismo tiempo, OpenAI se enfrentó a una disminución del suministro de datos web de alta calidad para el entrenamiento. Tan recientemente como junio de 2025, ninguno de los modelos de OpenAI en desarrollo se consideraba lo suficientemente fuerte como para ser llamado GPT-5.

Este desafío no es exclusivo de OpenAI. Los recientes modelos Claude 4 de Anthropic también ofrecieron solo mejoras generales modestas, aparte de un notable aumento en el rendimiento de codificación. Anthropic ya utiliza una arquitectura híbrida que combina un modelo de lenguaje grande con componentes de razonamiento especializados, algo que OpenAI también podría adoptar para GPT-5.

Más allá de sus principales modelos generativos, OpenAI ha estado desarrollando “modelos de razonamiento grandes” (LRM). Estos modelos tienden a funcionar mejor en tareas complejas cuando se les asigna más poder computacional y podrían convertirse en herramientas valiosas para matemáticas, búsqueda web y programación, o incluso apuntar a direcciones completamente nuevas para los modelos de lenguaje. Sin embargo, quedan preguntas abiertas sobre su generalizabilidad y requisitos energéticos.

Un avance significativo en esta área para OpenAI fue el modelo Q* a fines de 2023, que supuestamente resolvió problemas matemáticos que no había encontrado antes. Basándose en esto, OpenAI desarrolló los modelos o1 y o3, ambos basados en GPT-4o y diseñados para aplicaciones especializadas. Tanto o1 como o3 fueron entrenados utilizando aprendizaje por refuerzo (RL), con el “modelo maestro” o3 recibiendo significativamente más computación y acceso directo a fuentes web y de código. Durante el entrenamiento RL, el modelo genera respuestas a preguntas de nivel experto y se mejora comparando sus respuestas con soluciones humanas.

Sin embargo, cuando estos modelos se adaptaron para el chat, o3 supuestamente perdió parte de su capacidad. Como una fuente le dijo a The Information, la versión de chat tuvo que ser “simplificada” porque no estaba lo suficientemente entrenada para una conversación real, lo que perjudicó el rendimiento tanto en el chat como en la configuración de la API. Este problema fue destacado por el benchmark ARC-AGI en abril, donde la versión pública de o3 se desempeñó peor en una prueba de rompecabezas difícil que el modelo base interno, mostrando que muchas habilidades de razonamiento originales no sobrevivieron a la transición al chat.

El modelo o3-pro ilustra aún más este delicado equilibrio. Si bien los expertos calificaron a o3-pro altamente para tareas científicas, de programación y de negocios, tuvo dificultades con tareas diarias simples. Por ejemplo, responder a “Hola, soy Sam Altman” tomó varios minutos y acumuló $80 en costos de computación para una respuesta trivial, un caso de libro de texto de pensamiento excesivo. GPT-5 tiene como objetivo lograr un equilibrio entre el poder de razonamiento especializado y la utilidad conversacional práctica.

A pesar de estos obstáculos técnicos, GPT-5 está destinado a impulsar el progreso en los sistemas “agénticos”, aplicaciones donde una IA puede llevar a cabo múltiples pasos por sí misma. El nuevo modelo debería ser capaz de seguir instrucciones complejas de manera más eficiente, con menos supervisión humana. También se proyecta que GPT-5 superará a GPT-4o en capacidad sin usar mucha más computación. Las pruebas internas muestran que es mejor para evaluar qué tareas necesitan más o menos poder de cómputo, lo que podría hacer que los procesos sean más eficientes y ayudar a evitar el tipo de pensamiento excesivo visto en modelos como o3-pro.

Para OpenAI, incluso mejoras modestas en GPT-5 podrían ser suficientes para mantener a los clientes e inversores comprometidos. La compañía sigue creciendo rápidamente, a pesar de los altos costos operativos. En el competitivo campo de la IA relacionada con la codificación, donde Anthropic actualmente lidera con sus modelos Claude, OpenAI espera recuperar terreno con GPT-5.

OpenAI está aprovechando cada vez más el aprendizaje por refuerzo, especialmente un “verificador universal” que califica automáticamente la calidad de las respuestas del modelo, incluso para tareas subjetivas como la escritura creativa. Este verificador universal también se utilizó en el modelo de OpenAI que recientemente ganó el oro en la Olimpiada Internacional de Matemáticas. El investigador de OpenAI, Jerry Tworek, ha sugerido que este sistema de RL podría formar la base para la inteligencia artificial general (AGI).

GPT-5: Filtraciones apuntan a mejora modesta, no un salto para OpenAI

Artículos Relacionados

GPT-5 de OpenAI: ¿La Llegada Inminente de la AGI?

Duelo de IA entre EE. UU. y China: La carrera por el dominio global se intensifica

OpenAI busca una valoración de $500 mil millones, superando a SpaceX