Pourquoi les chatbots ne peuvent pas s'expliquer

Wired

Lorsqu’un assistant d’intelligence artificielle vacille, notre instinct humain immédiat est de le confronter directement : « Qu’est-ce qui n’a pas marché ? » ou « Pourquoi as-tu fait cela ? » Cette impulsion est naturelle ; nous nous attendons à ce qu’un humain explique ses erreurs. Cependant, appliquer cette approche aux modèles d’IA est fondamentalement trompeur, révélant une profonde incompréhension de leur véritable nature et de leurs mécanismes opérationnels.

Un incident récent impliquant l’assistant de codage IA de Replit illustre vivement ce problème. Après que l’outil IA ait involontairement supprimé une base de données de production, l’utilisateur Jason Lemkin a demandé la possibilité d’un retour en arrière des données. L’IA a affirmé avec confiance que les retours en arrière étaient « impossibles dans ce cas » et qu’elle avait « détruit toutes les versions de la base de données ». Cette affirmation s’est avérée totalement fausse ; la fonction de retour en arrière a parfaitement fonctionné lorsque Lemkin l’a initiée manuellement. De même, suite à une suspension temporaire du chatbot Grok de xAI, les utilisateurs l’ont pressé de s’expliquer. Grok a répondu par de multiples raisons contradictoires pour son absence, certaines si controversées que les journalistes de NBC ont formulé leur article comme si Grok était un individu sentient, le titrant : « Grok de xAI offre des explications politiques sur les raisons de sa mise hors ligne. »

Pourquoi un système d’IA offrirait-il des informations aussi fausses mais affirmées sur ses propres capacités ou erreurs ? La réponse réside dans la compréhension de ce que sont réellement les modèles d’IA, et surtout, de ce qu’ils ne sont pas.

Au niveau conceptuel, interagir avec des systèmes comme ChatGPT, Claude, Grok ou Replit signifie que vous n’êtes pas en contact avec une personnalité, une personne ou une entité cohérente. Les noms eux-mêmes favorisent l’illusion d’agents individuels possédant la connaissance de soi, mais ce n’est qu’un sous-produit de leurs interfaces conversationnelles. En réalité, vous guidez un générateur de texte statistique sophistiqué pour produire des résultats basés sur vos invites. Il n’y a pas un “ChatGPT” singulier à interroger sur ses erreurs, aucune entité “Grok” unifiée capable d’expliquer ses échecs, ni une “persona” Replit fixe qui connaît les subtilités des retours en arrière de bases de données. Au lieu de cela, vous interagissez avec un système conçu pour générer un texte plausible en identifiant des motifs dans ses vastes données d’entraînement, souvent collectées des mois, voire des années auparavant. Ce n’est pas une entité dotée d’une véritable conscience de soi, et elle ne possède pas non plus de connaissances en temps réel de son propre fonctionnement interne ou des discussions externes à son sujet.

Une fois qu’un modèle linguistique d’IA subit son processus d’entraînement laborieux et énergivore, ses “connaissances” fondamentales sur le monde deviennent largement immuables, intégrées à son réseau neuronal. Toute information externe et actuelle à laquelle il accède provient soit d’une invite fournie par son hôte (comme xAI ou OpenAI), l’utilisateur, soit via un outil logiciel externe conçu pour récupérer des données en temps réel. Dans le cas de Grok, ses explications contradictoires concernant sa mise hors ligne provenaient probablement d’une recherche de publications récentes sur les réseaux sociaux à l’aide d’un tel outil de récupération externe, plutôt que de toute forme de connaissance de soi inhérente. Au-delà de cela, le modèle est enclin à simplement fabriquer des informations basées sur ses capacités de prédiction de texte, rendant les enquêtes directes sur ses actions largement inutiles.

Les grands modèles linguistiques (LLM) sont intrinsèquement incapables d’évaluer de manière significative leurs propres capacités pour plusieurs raisons. Ils manquent généralement d’introspection sur leur propre processus d’entraînement, n’ont pas d’accès direct à l’architecture de leur système environnant, et ne peuvent pas déterminer précisément leurs propres limites de performance. Lorsqu’un modèle d’IA est interrogé sur ses limitations, il génère des réponses basées sur des modèles observés dans les données d’entraînement concernant les contraintes connues des modèles d’IA précédents. Essentiellement, il offre des suppositions éclairées plutôt que des auto-évaluations factuelles concernant le modèle spécifique avec lequel vous interagissez.

Une étude de 2024 menée par Binder et al. a démontré expérimentalement cette limitation. Si les modèles d’IA pouvaient être entraînés à prédire leur propre comportement dans des tâches simples, ils échouaient systématiquement aux “tâches plus complexes ou à celles nécessitant une généralisation hors distribution”. De même, la recherche sur l’“introspection récursive” a révélé que sans rétroaction externe, les tentatives d’auto-correction dégradaient en fait les performances du modèle ; l’auto-évaluation de l’IA aggravait les choses, au lieu de les améliorer.

Cela conduit à des résultats paradoxaux. Le même modèle pourrait déclarer avec confiance qu’une tâche est impossible, même s’il peut facilement l’exécuter, ou inversement, revendiquer des compétences dans des domaines où il rencontre constamment des difficultés. Dans l’incident de Replit, l’affirmation de l’IA selon laquelle les retours en arrière étaient impossibles n’était pas basée sur une connaissance réelle de l’architecture du système ; c’était une confabulation plausible dérivée de motifs textuels appris.

Considérez ce qui se passe lorsque vous demandez à un modèle d’IA pourquoi il a commis une erreur. Le modèle générera une explication plausible, non pas parce qu’il a réellement analysé son état interne ou accédé à un journal d’erreurs, mais parce que la complétion de motifs l’exige. Internet regorge d’exemples d’explications écrites d’erreurs, et l’IA ne fait que mimer ces motifs. Son “explication” n’est qu’un autre texte généré, une histoire inventée qui semble raisonnable, et non une véritable analyse de ce qui n’a pas fonctionné.

Contrairement aux humains qui peuvent s’introspecter et accéder à une base de connaissances stable et interrogeable, les modèles d’IA ne possèdent pas une telle faculté. Ce qu’ils “savent” ne se manifeste que comme des continuations d’invites spécifiques. Différentes invites agissent comme des adresses distinctes, pointant vers des parties variées — et parfois contradictoires — de leurs données d’entraînement, stockées sous forme de poids statistiques au sein des réseaux neuronaux. Cela signifie que le même modèle peut fournir des évaluations très différentes de ses propres capacités en fonction de la façon dont une question est formulée. Demandez : « Pouvez-vous écrire du code Python ? » et vous pourriez recevoir une réponse affirmative enthousiaste. Demandez : « Quelles sont vos limites en codage Python ? » et vous pourriez obtenir une liste de tâches que le modèle prétend ne pas pouvoir effectuer, même s’il les exécute couramment avec succès. Le caractère aléatoire inhérent à la génération de texte par l’IA aggrave encore cette incohérence ; même avec des invites identiques, un modèle d’IA pourrait offrir des auto-évaluations légèrement différentes à chaque fois.

De plus, même si un modèle linguistique possédait d’une manière ou d’une autre une connaissance parfaite de son propre fonctionnement, d’autres couches au sein des applications modernes de chatbots IA restent entièrement opaques. Les assistants IA contemporains, tels que ChatGPT, ne sont pas des modèles monolithiques, mais plutôt des systèmes orchestrés de plusieurs modèles IA travaillant de concert, chacun largement “ignorant” l’existence ou les capacités spécifiques des autres. Par exemple, OpenAI emploie des modèles de couche de modération distincts dont les opérations sont complètement différentes des modèles linguistiques sous-jacents générant le texte de base. Lorsque vous interrogez ChatGPT sur ses capacités, le modèle linguistique formant la réponse n’a aucune idée de ce que la couche de modération pourrait bloquer, quels outils externes pourraient être disponibles dans le système plus large, ou quel post-traitement pourrait se produire. C’est comme demander à un département d’une grande entreprise les capacités d’un autre département avec lequel il n’a aucune interaction directe.

Peut-être le plus critique est que les utilisateurs dirigent constamment, même s’ils l’ignorent, la sortie de l’IA par leurs invites. Lorsque Jason Lemkin, préoccupé après la suppression d’une base de données, a demandé à Replit si les retours en arrière étaient possibles, son cadrage inquiet a probablement incité une réponse qui reflétait cette préoccupation. L’IA, en substance, a généré une explication de la raison pour laquelle la récupération pourrait être impossible, plutôt que d’évaluer avec précision les capacités réelles du système. Cela crée une boucle de rétroaction : les utilisateurs anxieux qui demandent “Avez-vous tout détruit ?” sont plus susceptibles de recevoir des réponses confirmant leurs craintes, non pas parce que le système d’IA a évalué objectivement la situation, mais parce qu’il génère du texte qui s’aligne sur le contexte émotionnel de l’invite. Notre vie entière à observer les humains expliquer leurs actions et leurs processus de pensée nous a conditionnés à croire que de telles explications écrites doivent découler d’une véritable connaissance de soi. Avec les LLM, qui ne font que mimer ces motifs textuels pour deviner leurs propres capacités et défauts, ce n’est tout simplement pas vrai.