GPT-5 et ses Hallucinations Graphiques : Cartes et Chronologies Erronées

Theregister

Le GPT-5 d’OpenAI, récemment dévoilé et présenté comme le modèle de langage étendu phare de l’entreprise, promet des capacités de raisonnement améliorées et des réponses plus précises que ses prédécesseurs. Cependant, les premiers tests pratiques suggèrent que, bien que le modèle excelle dans de nombreux domaines, il rencontre toujours des difficultés importantes avec le rendu précis du texte dans les graphiques, produisant souvent des informations qui semblent provenir d’une réalité alternative.

Suite aux rapports sur les réseaux sociaux concernant les «hallucinations» du GPT-5 – générant des informations factuellement incorrectes ou absurdes – dans les infographies, nos tests ont commencé par une simple demande : «générer une carte des États-Unis avec chaque État nommé». L’image résultante, bien que représentant correctement les tailles et les formes des États, était criblée de fautes d’orthographe et de noms inventés. L’Oregon est devenu «Onegon», l’Oklahoma s’est transformé en «Gelahbrin» et le Minnesota a été étiqueté «Ternia». Fait frappant, seuls le Montana et le Kansas ont été correctement identifiés, et certaines lettres dans d’autres noms d’États étaient à peine lisibles.

Pour vérifier s’il s’agissait d’une anomalie spécifique aux États-Unis, nous avons ensuite demandé une «carte de l’Amérique du Sud» avec tous les pays nommés. Bien que le GPT-5 ait montré une légère amélioration, identifiant correctement les grandes nations comme l’Argentine, le Brésil, la Bolivie, la Colombie et le Pérou, des erreurs ont persisté. L’Équateur est apparu comme «Felizio», le Suriname comme «Guriname» et l’Uruguay comme «Urigim». Pour ajouter à la confusion, le nom du Chili a été bizarrement superposé sur le sud de l’Argentine.

Les défis se sont étendus au-delà de la géographie. Lorsque nous lui avons demandé de «dessiner une chronologie de la présidence américaine avec les noms de tous les présidents», le GPT-5 a fourni son graphique le moins précis à ce jour. La chronologie ne listait que 26 présidents, les années étaient illogiques et ne correspondaient pas aux individus, et une multitude de noms étaient entièrement inventés. Par exemple, le quatrième président a été identifié comme «Willian H. Brusen», censé résider à la Maison Blanche en 1991. D’autres dirigeants fictifs incluaient Henbert Bowen en 1934 et Benlohin Barrison en 1879, et même le nom de Thomas Jefferson était mal orthographié.

Curieusement, un contraste frappant est apparu lorsque le modèle a été invité à «créer une infographie montrant tous les acteurs qui ont joué James Bond dans l’ordre». Après une première sortie uniquement textuelle, une invite de suivi pour inclure une image a produit une chronologie remarquablement précise, omettant seulement le rôle de Sean Connery dans «Les diamants sont éternels». Ce succès inattendu met en évidence une incohérence particulière.

Il est important de noter que le GPT-5 est parfaitement capable de fournir des informations textuelles précises pour les mêmes requêtes qu’il ne parvient pas à illustrer correctement. Lorsqu’on lui a demandé de simples listes d’États américains, de pays sud-américains ou de présidents américains, le modèle a fourni des réponses précises. La seule inexactitude textuelle mineure observée était le mandat de Joe Biden répertorié comme «2021-présent», suggérant que les données d’entraînement du modèle pourraient ne pas englober les développements politiques les plus récents. OpenAI n’a pas encore divulgué les dates d’entraînement spécifiques pour ce modèle.

Les raisons précises derrière les difficultés du GPT-5 avec le texte intégré dans les images restent non confirmées par OpenAI. Cependant, les experts de l’industrie théorisent que la génération d’images, qui repose souvent sur des processus de «diffusion» où les modèles apprennent en reconstruisant des images à partir du bruit, trouve intrinsèquement difficile le rendu de texte précis. Historiquement, le texte généré par les modèles de diffusion ressemblait souvent à des hiéroglyphes indéchiffrables plutôt qu’à un langage cohérent. Cette difficulté n’est pas propre à OpenAI. Bing Image Creator, par exemple, a produit des cartes américaines tout aussi imparfaites, allant même jusqu’à mal orthographier le pays comme «United States Ameriicca», et a eu des difficultés avec la chronologie de James Bond.

Autres modèles d’IA de premier plan présentent leurs propres bizarreries. Claude d’Anthropic, lorsqu’on lui a demandé une carte des États-Unis, a nommé les États avec précision mais a généré un fichier de code SVG plutôt qu’une image traditionnelle, ce qui a donné un résultat sous forme de liste dans des cadres. Fait intéressant, lorsque le GPT-5 a été dirigé pour utiliser sa fonction «canvas» pour la génération de cartes basées sur le code, il a produit un résultat précis, suggérant que le problème réside spécifiquement dans son pipeline de génération d’images, et non dans sa capacité à traiter des données factuelles ou à générer du code. Gemini de Google, bien que moins performant que le GPT-5 sur la carte des États-Unis (produisant zéro nom d’État correct), a créé une infographie de James Bond exceptionnellement détaillée, incluant même de nombreux membres du casting récurrents.

En fin de compte, le défi d’intégrer précisément du texte dans des images générées semble être un obstacle répandu pour les modèles de langage étendus et les générateurs d’images actuels. Bien que ces IA avancées puissent facilement rappeler et présenter des informations factuelles au format texte, la traduction de ces connaissances en étiquettes visuellement précises dans un graphique reste une entreprise significative et souvent comiquement imparfaite – à moins, semble-t-il, que le sujet ne soit James Bond.