GPT-5 no cumple las expectativas: ganancias incrementales decepcionan a usuarios

Theverge

El lanzamiento de GPT-5 de OpenAI la semana pasada encendió una ferviente ola de anticipación en todo el panorama tecnológico, solo para ser recibido con una decepción generalizada. Antes de la gran revelación, el CEO de OpenAI, Sam Altman, había declarado que GPT-5 era “algo de lo que simplemente no quiero tener que volver atrás”, comparándolo con el debut revolucionario del iPhone con pantalla Retina. La noche anterior a la transmisión en vivo del anuncio, Altman avivó aún más la especulación al publicar una imagen de la Estrella de la Muerte, lo que llevó a un usuario en X a describir la atmósfera como similar a la “Nochebuena”. Todos los ojos estaban puestos en el creador de ChatGPT, ansiosos por ver si la inmensa publicidad se traduciría en un salto revolucionario o en una decepción. Según la mayoría de las cuentas, fue lo último.

El fervor por el tan esperado modelo de OpenAI se había ido construyendo durante años, desde el lanzamiento de GPT-4 en 2023. Durante un AMA (Pregúntame lo que quieras) en Reddit el pasado octubre, los usuarios presionaron repetidamente a Altman y a su equipo para obtener detalles sobre las características y la fecha de lanzamiento de GPT-5, con un Redditor preguntando directamente: “¿Por qué GPT-5 está tardando tanto?”. Altman había atribuido el retraso a limitaciones computacionales, señalando la creciente complejidad de estos modelos y la dificultad en el desarrollo paralelo.

Sin embargo, cuando GPT-5 finalmente estuvo accesible a través de ChatGPT, las reacciones de los usuarios fueron en gran medida poco entusiastas. Los avances significativos que muchos esperaban parecían incrementales, observándose las principales mejoras del modelo en áreas como el costo operativo y la velocidad de procesamiento. Aunque menos espectaculares, estas ganancias podrían, a largo plazo, representar una sólida estrategia financiera para OpenAI.

Las expectativas públicas para GPT-5 eran excepcionalmente altas, y un usuario de X comentó que solo la publicación de la Estrella de la Muerte de Altman había “cambiado las expectativas de todos”. OpenAI hizo poco para atenuar estas proyecciones, promocionando a GPT-5 como su “mejor sistema de IA hasta ahora” y un “salto significativo en inteligencia”, presumiendo de un “rendimiento de vanguardia en codificación, matemáticas, escritura, salud, percepción visual y más”. El propio Altman afirmó que conversar con el modelo se sentía como “hablar con un experto a nivel de doctorado”.

Este ambicioso bombo creó un marcado contraste con la realidad que experimentaron los usuarios. Las redes sociales se llenaron rápidamente de ejemplos de los errores desconcertantes de GPT-5. ¿Podría un modelo con inteligencia a nivel de doctorado, por ejemplo, insistir repetidamente en que había tres “b” en “blueberry”, o no identificar cuántos nombres de estados de EE. UU. contienen la letra “R”? Los usuarios también informaron de casos en los que el modelo etiquetaba incorrectamente un mapa de EE. UU. con estados fabricados como “New Jefst” y “Krizona”, o identificaba erróneamente Nevada como una extensión de California. Además, los usuarios que dependían del chatbot para el apoyo emocional encontraron el nuevo sistema austero y distante, lo que provocó una reacción tan fuerte que OpenAI restableció temporalmente el soporte para un modelo anterior. La decepción incluso generó memes, uno de ellos representando famosamente a GPT-4 y GPT-4o como dragones formidables, con GPT-5 reducido a un simplón.

La opinión pública experta fue igualmente implacable. Gary Marcus, una voz prominente en la industria de la IA y profesor emérito de psicología en la Universidad de Nueva York, caracterizó el modelo como “retrasado, sobrevalorado y decepcionante”. Peter Wildeford, cofundador del Instituto de Política y Estrategia de IA, concluyó en su reseña: “¿Es este el gran éxito que buscábamos? Desafortunadamente, no”. El popular bloguero de la industria de la IA, Zvi Mowshowitz, lo consideró “un modelo bueno, pero no excelente”, mientras que un Redditor en el AMA oficial de GPT-5 en Reddit declaró sin rodeos: “Alguien dígale a Sam que el 5 es basura caliente”.

En los días posteriores al lanzamiento de GPT-5, la ola inicial de reseñas poco impresionadas se ha moderado un poco. El consenso emergente sugiere que, si bien GPT-5 no ofreció el avance monumental que muchos anticipaban, sí ofrece mejoras significativas en eficiencia de costos, velocidad y, notablemente, una reducción de “alucinaciones” o errores fácticos. También se introdujo un nuevo “sistema de conmutación”, que enruta automáticamente las consultas al modelo de backend más apropiado. Altman se ha inclinado desde entonces hacia esta narrativa, afirmando: “GPT-5 es el modelo más inteligente que hemos hecho, pero lo principal por lo que hemos luchado es la utilidad en el mundo real y la accesibilidad/asequibilidad masiva”. La investigadora de OpenAI Christina Kim se hizo eco de esto, publicando en X que “la verdadera historia es la utilidad. Ayuda con lo que a la gente le importa —enviar código, escritura creativa y navegar por información de salud— con más estabilidad y menos fricción”. Ella enfatizó su calibración mejorada, su capacidad para admitir la incertidumbre y su capacidad para fundamentar las respuestas con citas.

A pesar de estas mejoras declaradas, persiste un sentimiento generalizado de que GPT-5, paradójicamente, ha hecho que ChatGPT sea menos elocuente. Las publicaciones virales en las redes sociales lamentan su percibida falta de matices y profundidad en la escritura, a menudo describiéndolo como robótico y frío. Incluso los propios materiales de marketing de OpenAI, que presentaban una comparación lado a lado de brindis de boda generados por GPT-4o y GPT-5, no mostraron una victoria inequívoca para el nuevo modelo. Cuando Altman preguntó directamente a los Redditors si encontraban a GPT-5 superior para las tareas de escritura, se encontró con una abrumadora defensa del modelo GPT-4o retirado, lo que lo llevó a restaurarlo temporalmente en ChatGPT en un día.

Sin embargo, un dominio donde GPT-5 parece brillar genuinamente es la codificación. Una iteración de GPT-5 actualmente lidera la clasificación de modelos de IA más populares en la categoría de codificación, superando a competidores como Claude de Anthropic. Las demostraciones de lanzamiento de OpenAI destacaron su capacidad para generar juegos, una herramienta de pixel art, un simulador de batería y un visualizador lofi. Aunque los proyectos complejos aún pueden exhibir fallas, el modelo ha mostrado promesa para tareas de codificación más simples, como la creación de una lección interactiva de bordado. Esto representa una victoria significativa para OpenAI en el ferozmente competitivo campo de la codificación de IA, donde compite con rivales como Anthropic y Google. Las empresas están dispuestas a invertir fuertemente en soluciones de codificación de IA, lo que lo convierte en uno de los generadores de ingresos más realistas y sustanciales para las startups de IA que suelen quemar efectivo. Si bien OpenAI también enfatizó el potencial de GPT-5 en el cuidado de la salud, su eficacia práctica en este sector sigue sin ser probada en gran medida.

En los últimos años, la importancia de los puntos de referencia de IA ha disminuido, ya que cambian con frecuencia y las empresas divulgan los resultados de forma selectiva. Sin embargo, todavía ofrecen una instantánea razonable del rendimiento de GPT-5. El modelo superó a sus predecesores en muchas pruebas de la industria, pero como señaló Wildeford, esta mejora fue en gran medida “lo que se esperaría: pequeños aumentos incrementales en lugar de algo digno de un vago meme de la Estrella de la Muerte”. Sin embargo, si la historia reciente sirve de guía, estos avances modestos e incrementales a menudo tienen más probabilidades de traducirse en ganancias tangibles que las características diseñadas únicamente para impresionar a los consumidores individuales. Las empresas de IA entienden que sus principales fuentes de ingresos provienen de clientes empresariales, contratos gubernamentales e inversiones. En este contexto, el progreso constante e incremental en los puntos de referencia establecidos, junto con capacidades de codificación mejoradas y una reducción de errores, representa la estrategia más efectiva para capitalizar estas lucrativas vías.