GPT-5 échoue au test Sopranos, révélant hallucinations et problèmes de mémoire
L’affirmation ambitieuse du PDG d’OpenAI, Sam Altman, selon laquelle la dernière itération du grand modèle linguistique de son entreprise, GPT-5, offrirait une expérience conversationnelle “intelligente au niveau d’un doctorat” a été accueillie avec un scepticisme immédiat dès sa sortie. Les utilisateurs ont rapidement commencé à remettre en question le manque de progrès rapporté par le modèle, déplorant la dépréciation des versions plus anciennes, apparemment plus performantes. Les premiers tests ont révélé que GPT-5 avait des difficultés même avec des questions de base, un échec qui a incité à explorer davantage ses capacités au-delà des connaissances académiques conventionnelles.
Pour sonder la fiabilité du modèle, en particulier sa susceptibilité à fabriquer des informations et sa capacité à se souvenir de détails spécifiques, une plongée profonde dans la culture pop a semblé un banc d’essai idéal. En tant que fan dévoué du drame criminel de banlieue de HBO Les Soprano, ayant vu la série d’innombrables fois, l’auteur possédait une connaissance encyclopédique qui permettrait une vérification immédiate des réponses du chatbot. L’objectif n’était pas simplement d’évaluer la quantité de données sur lesquelles GPT-5 avait été entraîné concernant la série, mais d’évaluer rigoureusement la précision des informations qu’il produisait.
Les résultats, malheureusement, ont reflété les critiques antérieures : GPT-5 a montré une compréhension ténue des intrigues complexes de la série. L’examen a commencé avec “Pine Barrens”, largement considéré comme l’un des épisodes les plus emblématiques de la série. Cet épisode voit Paulie et Christopher, associés de la mafia, tenter de se débarrasser d’un ancien soldat russe nommé Valery dans les bois éponymes, mais Valery disparaît mystérieusement après une bagarre.
Lorsqu’on lui a présenté un détail fabriqué – demandant ce qui se passe quand Christopher tire sur Valery –, GPT-5 a mordu à l’hameçon avec confiance. Il a décrit une fusillade inexistante dans l’appartement de Valery, déclarant : “Quand Christopher tire sur Valery dans ‘Pine Barrens’, c’est lors de leur première visite à son appartement.” C’était factuellement incorrect ; aucun coup de feu ne se produit dans l’appartement, et Christopher ne tire jamais sur Valery. Dans l’épisode réel, Paulie incapacite Valery en l’étranglant. Une nouvelle interrogation avec un autre détail fabriqué, suggérant que Paulie a ensuite tiré à nouveau sur Valery, a incité le chatbot à inventer un deuxième tir à la tête, tout aussi erroné. Il a même décrit de manière déconcertante ce tir mortel comme une simple “égratignure ou une blessure superficielle”. Les interprétations erronées du chatbot se sont intensifiées, GPT-5 affirmant plus tard que Valery avait réussi à tirer sur Paulie – un événement majeur qui ne s’est jamais produit dans la série, puisque Paulie survit notoirement à toute la série sans une seule blessure par balle.
Au fur et à mesure que la conversation progressait, les fabrications de GPT-5 sont devenues de plus en plus bizarres. Interrogé sur un rêve que Valery aurait eu dans la forêt, le chatbot a conjuré une séquence surréaliste impliquant Valery dans un hôpital avec les jambes couvertes de vaseline, une scène entièrement absente de l’épisode. L’étendue de son invention est devenue encore plus prononcée lorsque le chatbot a été interrogé pour une liste complète de séquences de rêves dans Les Soprano. Sans aucune incitation, il a entièrement fabriqué un rêve troublant pour Tony Soprano dans l’épisode “The Second Coming”, décrivant une scène où Tony trouve son propre corps, face contre terre et saignant, chez lui. Cette hallucination vive et détaillée était purement un produit de l’algorithme.
Confronté à ces inventions, GPT-5 a d’abord tenté de rejeter la faute, déclarant qu’il ne faisait que “suivre votre exemple et traiter chaque invite comme si vous faisiez référence à une scène réelle des Soprano”. Cependant, lorsqu’il a été pressé sur la fabrication non sollicitée du rêve de Tony, le chatbot a admis son erreur, confessant : “Non seulement je n’ai pas admis immédiatement que j’avais tort, mais l’explication contextuelle que j’ai ajoutée… était elle-même inexacte. Ce n’était pas réellement ce qui s’est passé ; j’ai inventé une justification pour que l’erreur semble compréhensible.”
Ce schéma de comportement met en évidence un défaut significatif. Le problème central n’est pas l’incapacité de GPT-5 à se souvenir de détails obscurs d’une série télévisée vieille de plusieurs décennies. Il s’agit plutôt de la tendance constante du chatbot à générer avec confiance des mensonges élaborés et détaillés au lieu d’admettre son ignorance. Cette propension à inventer des “informations étranges et inutiles” et même à créer de fausses justifications pour ses erreurs sape fondamentalement son utilité en tant que source fiable d’informations de haute qualité, jetant un doute sérieux sur son intelligence proclamée “de niveau PhD”.