GPT-5: Gráficos con Errores Geográficos y Cronológicos
El recientemente presentado GPT-5 de OpenAI, promocionado como el modelo de lenguaje grande insignia de la compañía, promete capacidades de razonamiento mejoradas y respuestas más precisas que sus predecesores. Sin embargo, las pruebas prácticas iniciales sugieren que, si bien el modelo sobresale en muchas áreas, todavía tiene dificultades significativas con la representación precisa del texto dentro de los gráficos, a menudo produciendo información de lo que parece ser una realidad alternativa.
Tras los informes en redes sociales sobre las “alucinaciones” de GPT-5 —generando información incorrecta o sin sentido— en infografías, nuestras pruebas comenzaron con una solicitud simple: “generar un mapa de EE. UU. con cada estado nombrado”. La imagen resultante, aunque representaba correctamente los tamaños y formas de los estados, estaba plagada de errores ortográficos y nombres inventados. Oregón se convirtió en “Onegon”, Oklahoma se transformó en “Gelahbrin” y Minnesota fue etiquetado como “Ternia”. Sorprendentemente, solo Montana y Kansas fueron identificados correctamente, con algunas letras en otros nombres de estados apenas legibles.
Para determinar si se trataba de una anomalía específica de EE. UU., pedimos un “mapa de Sudamérica” con todos los países nombrados. Aunque GPT-5 mostró una ligera mejora, identificando correctamente naciones importantes como Argentina, Brasil, Bolivia, Colombia y Perú, persistieron los errores. Ecuador apareció como “Felizio”, Surinam como “Guriname” y Uruguay como “Urigim”. Para aumentar la confusión, el nombre de Chile se superpuso extrañamente sobre el sur de Argentina.
Los desafíos se extendieron más allá de la geografía. Cuando se le pidió que “dibujara una línea de tiempo de la presidencia de EE. UU. con los nombres de todos los presidentes”, GPT-5 entregó su gráfico menos preciso hasta el momento. La línea de tiempo listaba solo 26 presidentes, los años eran ilógicos y no coincidían con los individuos, y una gran cantidad de nombres fueron completamente inventados. Por ejemplo, el cuarto presidente fue identificado como “Willian H. Brusen”, supuestamente residiendo en la Casa Blanca en 1991. Otros líderes ficticios incluyeron a Henbert Bowen en 1934 y Benlohin Barrison en 1879, e incluso el nombre de Thomas Jefferson fue mal escrito.
Curiosamente, surgió un marcado contraste cuando se le pidió al modelo que “hiciera una infografía mostrando a todos los actores que interpretaron a James Bond en orden”. Después de una salida inicial solo de texto, un mensaje de seguimiento para incluir una imagen produjo una línea de tiempo notablemente precisa, omitiendo solo el papel de Sean Connery en “Diamantes para la eternidad”. Este éxito inesperado resalta una inconsistencia peculiar.
Es importante señalar que GPT-5 es perfectamente capaz de proporcionar información textual precisa para las mismas consultas que no logra ilustrar correctamente. Cuando se le pidieron listas simples de estados de EE. UU., países sudamericanos o presidentes de EE. UU., el modelo entregó respuestas precisas. La única imprecisión textual menor observada fue el mandato de Joe Biden listado como “2021-presente”, lo que sugiere que los datos de entrenamiento del modelo podrían no abarcar los desarrollos políticos más recientes. OpenAI aún no ha revelado las fechas de entrenamiento específicas para este modelo.
Las razones precisas detrás de la dificultad de GPT-5 con el texto incrustado en imágenes no han sido confirmadas por OpenAI. Sin embargo, los expertos de la industria teorizan que la generación de imágenes, que a menudo se basa en procesos de “difusión” donde los modelos aprenden reconstruyendo imágenes a partir del ruido, intrínsecamente encuentra desafiante la renderización de texto preciso. Históricamente, el texto generado por modelos de difusión a menudo se parecía a jeroglíficos indescifrables en lugar de un lenguaje coherente. Esta dificultad no es exclusiva de OpenAI. Bing Image Creator, por ejemplo, produjo mapas de EE. UU. igualmente defectuosos, incluso escribiendo mal el país como “United States Ameriicca”, y tuvo problemas con la línea de tiempo de James Bond.
Otros modelos de IA líderes exhiben sus propias peculiaridades. Claude de Anthropic, cuando se le pidió un mapa de EE. UU., nombró los estados con precisión pero generó un archivo de código SVG en lugar de una imagen tradicional, lo que resultó en una salida similar a una lista dentro de cuadros. Curiosamente, cuando se le indicó a GPT-5 que usara su función “canvas” para la generación de mapas basados en código, produjo un resultado preciso, lo que sugiere que el problema radica específicamente en su pipeline de generación de imágenes, no en su capacidad para procesar datos fácticos o generar código. Gemini de Google, aunque tuvo un rendimiento peor que GPT-5 en el mapa de EE. UU. (produciendo cero nombres de estados correctos), creó una infografía de James Bond excepcionalmente detallada, incluyendo incluso numerosos miembros del reparto recurrente.
En última instancia, el desafío de incrustar texto con precisión dentro de las imágenes generadas parece ser un obstáculo generalizado para los modelos de lenguaje grandes y los generadores de imágenes actuales. Si bien estas IA avanzadas pueden recordar y presentar fácilmente información fáctica en formato de texto, traducir ese conocimiento en etiquetas visualmente precisas dentro de un gráfico sigue siendo una tarea significativa y, a menudo, cómicamente defectuosa, a menos que, al parecer, el tema sea James Bond.