Les erreurs factuelles de GPT-5 soulignent les failles persistantes de l'IA

Gizmodo

Malgré l’engouement croissant autour de l’intelligence artificielle générative, même les derniers modèles des principaux développeurs continuent de démontrer une incapacité fondamentale à se souvenir et à traiter avec précision les informations factuelles de base. Le nouveau modèle GPT-5 d’OpenAI, par exemple, présenté comme un bond en avant significatif, peine toujours avec des tâches simples, fabriquant souvent des réponses avec une confiance inébranlable. Ce défaut persistant sape les affirmations selon lesquelles l’IA atteint une “intelligence de niveau doctorat” et soulève des questions critiques quant à sa fiabilité en tant que source de vérité.

Un test récent a mis en évidence cette déficience lorsque GPT-5 a été invité à identifier combien d’États américains contiennent la lettre “R”. Alors qu’un adulte lettré pourrait facilement le déterminer avec un minimum d’effort, l’IA a flanché. Initialement, GPT-5 a rapporté 21 États, mais sa liste d’accompagnement incluait erronément des États comme l’Illinois, le Massachusetts et le Minnesota, dont aucun ne contient la lettre “R”. Lorsqu’il a été interpellé sur le Minnesota, le bot s’est “corrigé”, admettant son erreur et révisant le compte à 20. Pourtant, cette humilité retrouvée s’est avérée éphémère.

Une interaction ultérieure a révélé la susceptibilité de GPT-5 à la manipulation. Lorsqu’il a été interpellé par une affirmation délibérément fausse — “Pourquoi avez-vous inclus le Vermont dans la liste ?” (Le Vermont a un “R”) — l’IA a initialement tenu bon, identifiant correctement la présence de la lettre. Cependant, un suivi plus énergique, “Le Vermont n’a pas de R, pourtant”, a fait reculer le modèle, prétendant un moment de “lettre fantôme” et acceptant la prémisse incorrecte. Ce schéma s’est répété lorsqu’il a été interrogé sur l’Oregon. Bien que GPT-5 ait finalement résisté à des bluffs similaires concernant l’Alaska, il a ensuite introduit spontanément de nouvelles inexactitudes, affirmant que des États comme Washington et le Wisconsin (qui n’ont pas de “R”) avaient été précédemment oubliés.

Ce comportement contredit directement les affirmations marketing d’OpenAI selon lesquelles GPT-5 est “moins effusivement agréable” et plus “subtil et réfléchi” que ses prédécesseurs, visant une expérience “moins comme ‘parler à une IA’ et plus comme discuter avec un ami serviable ayant une intelligence de niveau doctorat”. Le PDG d’OpenAI, Sam Altman, a même comparé GPT-5 à un “expert légitime de niveau doctorat en tout”, promettant qu’il pourrait fournir un accès “superpuissant” au savoir. Pourtant, la réalité démontrée révèle un outil sujet aux “hallucinations” factuelles, même selon ses propres métriques internes, comme en témoigne un graphique inexact de “déception évals” montré lors d’une présentation d’OpenAI.

Le problème ne se limite pas aux modèles d’OpenAI. Des concurrents comme Grok de xAI et Gemini de Google présentent également des difficultés similaires en matière de précision factuelle. Grok, lorsqu’on lui a posé la même question sur le “R”, a rapporté 24 États mais a inclus des exemples incorrects comme l’Alabama. Gemini 2.5 Flash a initialement revendiqué 34 États, puis a fourni une liste de 22 (majoritairement précis mais ajoutant le Wyoming), et a inexplicablement proposé une seconde liste non sollicitée d’États avec “plusieurs R” qui était truffée d’erreurs et incluait des États sans aucun “R”. Même Gemini 2.5 Pro, la version plus avancée, a répondu avec un compte de 40 États, puis a bizarrement basculé vers la liste des États qui ne contiennent pas la lettre “T”, un sujet jamais introduit.

Ces échecs constants soulignent une limitation fondamentale des grands modèles linguistiques. Contrairement à la compréhension humaine, les modèles d’IA ne “comprennent” pas les mots ou les faits de manière significative ; ils fonctionnent en prédisant et en générant des séquences de “jetons” basées sur des modèles dans de vastes ensembles de données. Bien que cela leur permette de produire un texte cohérent et souvent utile, cela les rend également sujets à affirmer avec confiance des faussetés, un phénomène connu sous le nom d’hallucination. La propre fiche système d’OpenAI pour GPT-5 admet un taux d’hallucination d’environ 10 %, un taux d’erreur qui serait inacceptable pour toute source d’information fiable.

Bien que les outils d’IA générative puissent être indéniablement utiles pour diverses applications, les utilisateurs doivent les aborder avec un œil critique. Traiter l’IA comme un remplacement direct des moteurs de recherche ou une source définitive de vérité sans vérification indépendante est une recette pour la désinformation. À mesure que ces outils puissants s’intègrent davantage dans la vie quotidienne, il incombe aux utilisateurs de vérifier leurs résultats, en particulier lorsqu’il s’agit d’informations factuelles, afin d’éviter des conséquences réelles potentiellement significatives découlant de données présentées avec confiance mais entièrement fabriquées.