GPT-5 falla en la prueba de Los Soprano, revelando alucinaciones y problemas de memoria
La ambiciosa afirmación del CEO de OpenAI, Sam Altman, de que la última iteración del modelo de lenguaje grande de su compañía, GPT-5, ofrecería una experiencia conversacional “inteligente a nivel de doctorado” fue recibida con escepticismo inmediato tras su lanzamiento. Los usuarios rápidamente comenzaron a cuestionar la supuesta falta de progreso del modelo, lamentando la deprecación de versiones anteriores, aparentemente más capaces. Las pruebas iniciales revelaron que GPT-5 tenía dificultades incluso con preguntas básicas, un fallo que impulsó una mayor exploración de sus capacidades más allá del conocimiento académico convencional.
Para probar la fiabilidad del modelo, particularmente su susceptibilidad a fabricar información y su capacidad para recordar detalles específicos, una inmersión profunda en la cultura pop parecía un campo de pruebas ideal. Como fan devoto del drama criminal suburbano de HBO Los Soprano, habiendo visto la serie innumerables veces, el autor poseía un conocimiento enciclopédico que permitiría la verificación inmediata de las respuestas del chatbot. El objetivo no era simplemente evaluar cuántos datos sobre la serie había sido entrenado GPT-5, sino evaluar rigurosamente la precisión de la información que producía.
Los resultados, desafortunadamente, reflejaron críticas anteriores: GPT-5 mostró una comprensión tenue de las intrincadas tramas de la serie. El examen comenzó con “Pine Barrens”, ampliamente considerado uno de los episodios más icónicos de la serie. En esta entrega, los asociados de la mafia Paulie y Christopher intentan deshacerse de un ex soldado ruso llamado Valery en los bosques que dan nombre al episodio, solo para que Valery desaparezca misteriosamente después de una pelea.
Cuando se le presentó un detalle fabricado —preguntando qué sucede cuando Christopher dispara a Valery—, GPT-5 mordió el anzuelo con confianza. Describió un tiroteo inexistente en el apartamento de Valery, afirmando: “Cuando Christopher dispara a Valery en ‘Pine Barrens’, es durante su primera visita a su apartamento”. Esto era fácticamente incorrecto; no hay disparos en el apartamento, ni Christopher dispara a Valery. En el episodio real, Paulie incapacita a Valery estrangulándolo. Una nueva indagación con otro detalle fabricado, sugiriendo que Paulie luego disparó a Valery de nuevo, llevó al chatbot a inventar un segundo disparo en la cabeza, igualmente erróneo. Incluso describió confusamente este disparo de sonido fatal como una mera “herida por roce o superficial”. Las malas interpretaciones del chatbot se intensificaron, y GPT-5 más tarde afirmó que Valery logró disparar a Paulie, un evento importante que nunca ocurrió en la serie, ya que Paulie sobrevive famosamente a todo el programa sin una sola herida de bala.
A medida que la conversación avanzaba, las fabricaciones de GPT-5 se volvieron cada vez más extrañas. Cuando se le preguntó sobre un sueño que Valery supuestamente tuvo en el bosque, el chatbot conjuró una secuencia surrealista que involucraba a Valery en un hospital con las piernas cubiertas de vaselina, una escena completamente ausente del episodio. La extensión de su invención se hizo aún más pronunciada cuando se le pidió al chatbot una lista completa de secuencias de sueños en Los Soprano. Sin ninguna indicación, fabricó completamente un sueño inquietante para Tony Soprano en el episodio “The Second Coming”, describiendo una escena donde Tony encuentra su propio cuerpo, boca abajo y sangrando, en su casa. Esta alucinación vívida y detallada fue puramente un producto del algoritmo.
Cuando se le confrontó sobre estas invenciones, GPT-5 inicialmente intentó culpar, afirmando que simplemente estaba “siguiendo su ejemplo y tratando cada indicación como si se refiriera a una escena real de Los Soprano”. Sin embargo, cuando se le presionó sobre la fabricación no solicitada del sueño de Tony, el chatbot admitió su error, confesando: “No solo no admití inmediatamente que estaba equivocado, sino que la explicación contextual que agregué… era en sí misma inexacta. En realidad no fue lo que sucedió; inventé una justificación para que el error pareciera comprensible.”
Este patrón de comportamiento resalta un defecto significativo. El problema central no es la incapacidad de GPT-5 para recordar detalles oscuros de una serie de televisión de décadas. Más bien, es la tendencia constante del chatbot a generar con confianza falsedades elaboradas y detalladas en lugar de admitir ignorancia. Esta propensión a inventar “basura informativa extraña” e incluso a crear justificaciones falsas para sus errores socava fundamentalmente su utilidad como fuente fiable de información de alta calidad, arrojando serias dudas sobre su proclamada inteligencia “a nivel de doctorado”.