El Alto Costo Energético de GPT-5: OpenAI Guarda Silencio sobre su Consumo

Theguardian

El recién lanzado modelo GPT-5 de OpenAI, listo para impulsar el popular chatbot ChatGPT, está generando una preocupación significativa entre los expertos con respecto a su consumo de energía. Si bien la compañía ha destacado las capacidades avanzadas de GPT-5 —incluida su habilidad para generar sitios web, responder preguntas científicas a nivel de doctorado y abordar problemas complejos de razonamiento— estos avances parecen tener un costo ambiental sustancial, que OpenAI hasta ahora se ha negado a revelar.

Para ponerlo en contexto, una consulta a una versión anterior de ChatGPT a mediados de 2023, como una solicitud de receta de pasta de alcachofa o instrucciones para una ofrenda ritual a la antigua deidad cananea Moloch, podría haber consumido aproximadamente 2 vatios-hora de electricidad, equivalente a una bombilla incandescente encendida durante dos minutos. Los expertos ahora estiman que generar una cantidad similar de texto con GPT-5 podría requerir varias veces esa energía, potencialmente hasta 20 veces más.

OpenAI, al igual que muchos de sus competidores, no ha publicado datos oficiales sobre el uso de energía de sus modelos desde el debut de GPT-3 en 2020. Aunque el CEO Sam Altman compartió algunas cifras sobre el consumo de recursos de ChatGPT en su blog este junio —citando 0.34 vatios-hora y 0.000085 galones de agua por consulta— estos números carecían de atribución de modelo específica y documentación de respaldo.

El profesor Rakesh Kumar de la Universidad de Illinois, cuya investigación se centra en el consumo de energía de la computación y los modelos de IA, afirmó que un modelo más complejo como GPT-5 consumiría inherentemente más energía durante sus fases de entrenamiento y operación. Añadió que su diseño para un “pensamiento prolongado” indica fuertemente un consumo de energía mucho mayor que su predecesor, GPT-4.

De hecho, el día del lanzamiento de GPT-5, investigadores del laboratorio de IA de la Universidad de Rhode Island descubrieron que el modelo podía usar hasta 40 vatios-hora de electricidad para producir una respuesta de longitud media de aproximadamente 1,000 tokens, que son los bloques de construcción del texto para un modelo de IA, aproximadamente equivalentes a palabras. Un panel de control lanzado posteriormente por el laboratorio indicó que el consumo promedio de energía de GPT-5 para dicha respuesta es de poco más de 18 vatios-hora. Esta cifra supera a todos los demás modelos que evaluaron, con las excepciones del modelo de razonamiento o3 de OpenAI, lanzado en abril, y R1, desarrollado por la empresa china de IA Deepseek. Nidhal Jegham, investigadora del grupo, confirmó que esto representa “significativamente más energía que GPT-4o”, el modelo anterior de OpenAI.

Para poner esto en perspectiva, 18 vatios-hora es comparable a una bombilla incandescente encendida durante 18 minutos. Dados los informes recientes de que ChatGPT procesa 2.5 mil millones de solicitudes diarias, la energía total consumida por GPT-5 podría potencialmente rivalizar con la demanda diaria de electricidad de 1.5 millones de hogares estadounidenses.

Los investigadores en el campo anticiparon en gran medida estas altas cifras, ya que se cree que GPT-5 es sustancialmente más grande que los modelos anteriores de OpenAI. OpenAI no ha revelado el recuento de parámetros —que en gran medida determina el tamaño de un modelo— para ninguno de sus modelos desde GPT-3, que contaba con 175 mil millones de parámetros. Un estudio realizado este verano por la empresa francesa de IA Mistral, basado en sus sistemas internos, identificó una fuerte correlación entre el tamaño de un modelo y su consumo de energía, señalando que un modelo diez veces más grande generaría impactos un orden de magnitud mayores para la misma cantidad de tokens generados. Estimaciones previas sugirieron ampliamente que GPT-4 era diez veces el tamaño de GPT-3, y expertos como Jegham, Kumar y Shaolei Ren, profesor de la Universidad de California, Riverside, que estudia la huella de recursos de la IA, creen que GPT-5 es probablemente significativamente más grande que GPT-4.

Las principales empresas de IA, incluida OpenAI, sostienen que los modelos extremadamente grandes son esenciales para lograr la Inteligencia Artificial General (AGI), un sistema de IA capaz de realizar trabajos humanos. El propio Altman articuló esta opinión en febrero, sugiriendo que “se pueden gastar cantidades arbitrarias de dinero y obtener ganancias continuas y predecibles”, aunque aclaró que GPT-5 no había superado la inteligencia humana.

Si bien la escala de GPT-5 es un impulsor principal de sus demandas de energía, otros factores también influyen en su consumo de recursos. El modelo se beneficia de la implementación en hardware más eficiente que algunas iteraciones anteriores. Además, GPT-5 parece utilizar una arquitectura de “mezcla de expertos”, un diseño optimizado donde no todos los parámetros se activan para cada consulta, lo que potencialmente reduce el uso de energía. Por el contrario, las capacidades multimodales de GPT-5, que le permiten procesar video e imágenes además de texto, y su “modo de razonamiento”, que implica tiempos de computación más largos antes de generar una respuesta, probablemente aumentarán significativamente su huella energética. Ren estima que usar el modo de razonamiento podría llevar a un aumento de cinco a diez veces en el gasto de recursos para la misma respuesta.

El equipo de la Universidad de Rhode Island calculó sus estimaciones multiplicando el tiempo promedio que tarda un modelo en responder a una consulta por su consumo de energía promedio durante la operación. Abdeltawab Hendawi, profesor de ciencia de datos en la Universidad de Rhode Island, señaló el considerable esfuerzo requerido para estimar el consumo de energía de un modelo, particularmente debido a la falta de información sobre cómo se implementan los diferentes modelos dentro de los centros de datos. Su documento final incluye estimaciones para los chips utilizados por modelos específicos y cómo las consultas se distribuyen entre varios chips en un centro de datos. En particular, la cifra de 0.34 vatios-hora por consulta de ChatGPT de la publicación de blog de Altman en junio se alinea estrechamente con los hallazgos del grupo para GPT-4o, lo que da credibilidad a su metodología.

Hendawi, Jegham y otros miembros de su grupo de investigación enfatizan que sus hallazgos subrayan una necesidad urgente de mayor transparencia por parte de las empresas de IA a medida que continúan lanzando modelos cada vez más grandes y potentes. Marwan Abdelatti, otro profesor de la URI, afirmó: “Es más crítico que nunca abordar el verdadero costo ambiental de la IA. Hacemos un llamado a OpenAI y otros desarrolladores para que aprovechen este momento y se comprometan a una transparencia total divulgando públicamente el impacto ambiental de GPT-5.”