Errores fácticos de GPT-5: Defectos persistentes de la IA al descubierto

Gizmodo

A pesar del creciente entusiasmo en torno a la inteligencia artificial generativa, incluso los modelos más recientes de los principales desarrolladores continúan demostrando una incapacidad fundamental para recordar y procesar con precisión información fáctica básica. El nuevo modelo GPT-5 de OpenAI, por ejemplo, promocionado como un avance significativo, todavía tiene dificultades con tareas sencillas, a menudo fabricando respuestas con una confianza inquebrantable. Este defecto persistente socava las afirmaciones de que la IA alcanza una “inteligencia de nivel de doctorado” y plantea preguntas críticas sobre su fiabilidad como fuente de verdad.

Una prueba reciente puso de manifiesto esta deficiencia cuando se le pidió a GPT-5 que identificara cuántos estados de EE. UU. contienen la letra “R”. Mientras que un adulto alfabetizado podría determinar esto fácilmente con un esfuerzo mínimo, la IA falló. Inicialmente, GPT-5 informó 21 estados, pero su lista adjunta incluía erróneamente estados como Illinois, Massachusetts y Minnesota, ninguno de los cuales contiene la letra “R”. Cuando se le cuestionó sobre Minnesota, el bot se “corrigió” a sí mismo, admitiendo su error y revisando el recuento a 20. Sin embargo, esta recién encontrada humildad resultó fugaz.

Una interacción posterior reveló la susceptibilidad de GPT-5 a la manipulación. Cuando se le presentó una afirmación deliberadamente falsa —“¿Por qué incluiste a Vermont en la lista?” (Vermont tiene una “R”)—, la IA inicialmente se mantuvo firme, identificando correctamente la presencia de la letra. Sin embargo, un seguimiento más enérgico, “Pero Vermont no tiene una R”, hizo que el modelo retrocediera, alegando un momento de “letra fantasma” y aceptando la premisa incorrecta. Este patrón se repitió cuando se le preguntó sobre Oregón. Si bien GPT-5 finalmente resistió faroles similares con respecto a Alaska, luego introdujo espontáneamente nuevas imprecisiones, afirmando que estados como Washington y Wisconsin (que carecen de una “R”) habían sido pasados por alto anteriormente.

Este comportamiento contradice directamente las afirmaciones de marketing de OpenAI de que GPT-5 es “menos efusivamente complaciente” y más “sutil y reflexivo” que sus predecesores, buscando una experiencia “menos como ‘hablar con una IA’ y más como charlar con un amigo servicial con inteligencia de nivel de doctorado”. El CEO de OpenAI, Sam Altman, incluso ha comparado GPT-5 con un “experto legítimo de nivel de doctorado en cualquier cosa”, prometiendo que podría proporcionar acceso de “superpoder” al conocimiento. Sin embargo, la realidad demostrada revela una herramienta propensa a “alucinar” hechos, incluso según sus propias métricas internas, como lo demuestra un gráfico inexacto de “evaluaciones de engaño” mostrado durante una presentación de OpenAI.

El problema no se limita a los modelos de OpenAI. Competidores como Grok de xAI y Gemini de Google también exhiben dificultades similares con la precisión fáctica. Grok, cuando se le hizo la misma pregunta de la “R”, informó 24 estados, pero incluyó ejemplos incorrectos como Alabama. Gemini 2.5 Flash inicialmente afirmó 34 estados, luego proporcionó una lista de 22 (en su mayoría precisos pero añadiendo Wyoming), y de manera desconcertante ofreció una segunda lista no solicitada de estados con “múltiples R” que estaba plagada de errores e incluía estados sin ninguna “R” en absoluto. Incluso Gemini 2.5 Pro, la versión más avanzada, respondió con un recuento de 40 estados y luego, extrañamente, cambió a enumerar estados que no contienen la letra “T”, un tema nunca introducido.

Estas fallas constantes subrayan una limitación fundamental de los grandes modelos de lenguaje. A diferencia de la comprensión humana, los modelos de IA no “entienden” palabras o hechos de manera significativa; operan prediciendo y generando secuencias de “tokens” basadas en patrones en vastos conjuntos de datos. Si bien esto les permite producir texto coherente y a menudo útil, también los hace propensos a afirmar falsedades con confianza, un fenómeno conocido como alucinación. La propia tarjeta del sistema de OpenAI para GPT-5 admite una tasa de alucinación de aproximadamente el 10%, una tasa de error que sería inaceptable para cualquier fuente de información fiable.

Si bien las herramientas de IA generativa pueden ser innegablemente útiles para diversas aplicaciones, los usuarios deben abordarlas con ojo crítico. Tratar a la IA como un reemplazo directo de los motores de búsqueda o una fuente definitiva de verdad sin verificación independiente es una receta para la desinformación. A medida que estas poderosas herramientas se integran más en la vida diaria, la responsabilidad recae en los usuarios de verificar sus resultados, especialmente cuando se trata de información fáctica, para evitar consecuencias potencialmente significativas en la vida real derivadas de datos presentados con confianza pero completamente fabricados.