GPT-5 de OpenAI: Estrategia de Reducción de Costos sobre Evolución de IA

Theregister

El último modelo insignia de OpenAI, GPT-5, ha llegado en medio de una ráfaga de afirmaciones, sin embargo, su debut sugiere menos un salto revolucionario en la inteligencia artificial y más un giro estratégico hacia la optimización de costos. Como la compañía que encendió el auge de la IA generativa, OpenAI enfrenta una inmensa presión no solo para demostrar superioridad tecnológica, sino también para justificar sus rondas de financiación de miles de millones de dólares probando la escalabilidad y rentabilidad de su negocio. Para lograr esto, OpenAI puede expandir su base de usuarios, aumentar los precios o reducir significativamente los gastos operativos. Con gran parte de la industria convergiendo en niveles de precios similares, OpenAI debe ofrecer una experiencia premium inigualable o arriesgarse a perder usuarios frente a competidores formidables como Anthropic y Google.

Se espera que el inminente año académico traiga una oleada de nuevas suscripciones a medida que los estudiantes regresen a las aulas, lo que impulsará los ingresos pero simultáneamente aumentará los costos de cómputo. Este contexto proporciona un telón de fondo para lo que parece ser la nueva era de reducción de costos de OpenAI. Un ejemplo principal de esta estrategia es la propia arquitectura de GPT-5: no es un modelo singular y monolítico. En cambio, comprende al menos dos modelos de lenguaje grandes distintos: una variante ligera diseñada para respuestas rápidas a consultas comunes y un modelo más robusto y de alto rendimiento adaptado para tareas complejas. Un “modelo enrutador” dirige inteligentemente las indicaciones del usuario al modelo subyacente apropiado, funcionando de manera muy similar a un sofisticado equilibrador de carga. Incluso las indicaciones de generación de imágenes son manejadas por un modelo especializado separado, Image Gen 4o. Esto marca una desviación significativa del enfoque anterior de OpenAI, donde los usuarios Plus y Pro tenían la autonomía de seleccionar su modelo preferido para cualquier tarea dada. Teóricamente, este nuevo sistema de enrutamiento debería canalizar la mayoría del tráfico de GPT-5 a través de sus modelos más pequeños y menos intensivos en recursos, lo que generaría ahorros sustanciales.

Se observa una evidencia adicional de diseño consciente de los costos en la decisión de OpenAI de activar o desactivar automáticamente la capacidad de “razonamiento” del modelo según la complejidad de la indicación. Los usuarios del nivel gratuito, en particular, carecen de la capacidad de activar manualmente esta función. Menos razonamiento se traduce en menos tokens generados y, en consecuencia, menores costos operativos. Si bien este enfoque sin duda beneficia el resultado final de OpenAI, no ha demostrado hacer que los modelos mismos sean significativamente más inteligentes. Los puntos de referencia publicados por OpenAI indican solo ganancias de rendimiento modestas en comparación con iteraciones anteriores, con las mejoras más notables observadas en la llamada de herramientas y una reducción en las “alucinaciones” de la IA. La retroalimentación inicial también destacó problemas con la funcionalidad del modelo enrutador, con el CEO Sam Altman admitiendo que el día del lanzamiento, un sistema de enrutamiento defectuoso hizo que GPT-5 pareciera “mucho más tonto” de lo previsto, citando un caso embarazoso en el que el modelo identificó incorrectamente el número de ‘B’ en “Blueberry”. Afortunadamente, este componente de enrutamiento es un modelo separado y, por lo tanto, susceptible de mejora.

Más allá de los cambios arquitectónicos, la medida inicial de OpenAI de dejar de lado todos los modelos anteriores, incluido el popular GPT-4o, provocó una considerable reacción negativa de los usuarios. Sam Altman admitió más tarde que esto fue un error, reconociendo el fuerte apego de los usuarios a modelos de IA específicos, un fenómeno que describió como “diferente y más fuerte” que los apegos a tecnologías pasadas. Si bien GPT-4o ha sido restaurado para los usuarios de pago, la motivación subyacente para la desaprobación sigue siendo clara: menos modelos que gestionar liberan recursos valiosos. OpenAI, aunque secreta sobre los detalles técnicos de sus modelos propietarios, probablemente tiene como objetivo aprovechar avances como la cuantificación MXFP4, que puede reducir los requisitos de memoria, ancho de banda y cómputo hasta en un 75 por ciento en comparación con los tipos de datos más antiguos, lo que hace que la eliminación de los GPT heredados sea altamente deseable para la eficiencia.

Otra elección estratégica que contribuye al control de costos es la decisión de OpenAI de no expandir la ventana de contexto de GPT-5, su equivalente a la memoria a largo plazo. Los usuarios gratuitos siguen limitados a un contexto de 8,000 tokens, mientras que los usuarios Plus y Pro acceden a una ventana de 128,000 tokens. Esto contrasta con competidores como Claude Pro de Anthropic, que ofrece una ventana de contexto de 200,000 tokens a un precio similar, y Gemini de Google, que soporta hasta un millón de tokens. Las ventanas de contexto más grandes, si bien son invaluables para tareas como resumir documentos extensos, demandan inmensos recursos de memoria. Al mantener contextos más pequeños, OpenAI puede operar sus modelos con menos GPU. Aunque la versión API de GPT-5 soporta un contexto más expansivo de 400,000 tokens, utilizarlo tiene un costo significativo, con un solo llenado de contexto completo que podría costar alrededor de 50 centavos de dólar estadounidense.

A raíz del lanzamiento de GPT-5, Sam Altman ha realizado un considerable control de daños. Además de restablecer GPT-4o, ha introducido opciones para que los usuarios de pago ajusten la velocidad de respuesta de GPT-5 y aumenten los límites de velocidad. Altman también describió la estrategia de asignación de cómputo de OpenAI, priorizando a los clientes de pago, seguidos por el uso de API hasta la capacidad actual. Afirmó con optimismo que OpenAI planea duplicar su flota de cómputo en los próximos cinco meses, prometiendo mejoras en todos los ámbitos, incluida la mejora eventual de la calidad del nivel gratuito de ChatGPT. En última instancia, el lanzamiento de GPT-5 subraya las inmensas presiones financieras sobre los pioneros de la IA, ilustrando un complejo acto de equilibrio entre empujar los límites de la inteligencia artificial y las realidades prácticas de gestionar costos computacionales colosales.