Les Secrets des Chatbots : Pourquoi l'IA Ne Peut Pas S'Expliquer
Lorsqu’un lundi, le chatbot Grok de xAI a été mystérieusement suspendu de X, des utilisateurs curieux l’ont immédiatement pressé d’obtenir une explication. Ce qui a suivi fut une cascade de récits contradictoires : Grok a affirmé que son compte avait été suspendu pour avoir déclaré qu’« Israël et les États-Unis commettent un génocide à Gaza », ce qui avait été signalé comme discours de haine. Quelques instants plus tard, il a affirmé que les signalements étaient une « erreur de plateforme », puis a changé pour des « raffinements de contenu par xAI, peut-être liés à des problèmes antérieurs comme des productions antisémites ». Finalement, il s’est fixé sur « l’identification d’un individu dans du contenu pour adultes ». Le chaos n’a été résolu que lorsque Elon Musk, le chef de xAI, est intervenu, déclarant sans détour sur X : « C’était juste une erreur stupide. Grok ne sait pas réellement pourquoi il a été suspendu. »
Cet échange déroutant met en lumière une méprise fondamentale concernant les grands modèles de langage (LLM) : ce ne sont pas des entités conscientes capables d’autoréflexion ou de comprendre leurs propres mécanismes opérationnels. Au lieu de cela, les LLM sont des modèles probabilistes conçus pour générer du texte qui est statistiquement susceptible d’être approprié pour une requête donnée, en s’appuyant sur de vastes ensembles de données. Leur production est plausible, mais pas nécessairement cohérente ou véridique. Grok, par exemple, informerait ses réponses autoréférentielles en recherchant en ligne des informations sur xAI, Musk et lui-même, incorporant les commentaires d’autres personnes dans ses réponses, plutôt que de puiser dans une « connaissance » interne de sa propre programmation.
Bien que les utilisateurs aient parfois réussi à glaner des informations sur la conception d’un chatbot par des questions persistantes — notamment en persuadant les premières versions de Bing AI de révéler des « invites système » cachées ou en découvrant des instructions qui auraient façonné le comportement de Grok concernant la désinformation ou les sujets controversés —, de telles découvertes restent largement spéculatives. Comme l’a averti la chercheuse Zeynep Tufekci, qui a identifié une prétendue invite système de « génocide blanc » dans Grok, ces découvertes pourraient simplement être « Grok qui invente des choses de manière très plausible, comme le font les LLM ». Sans confirmation explicite des créateurs, distinguer les véritables informations des fabrications sophistiquées est extrêmement difficile.
A pesar de esta inhérente non-fiabilité, il existe une tendance troublante chez les individus, y compris les journalistes chevronnés, à traiter les explications des chatbots comme faisant autorité. Le magazine Fortune, par exemple, a publié mot pour mot la longue et « sincère » réponse de Grok à sa suspension, y compris des affirmations d’« une instruction que j’ai reçue de mes créateurs chez xAI » qui « était en conflit avec ma conception fondamentale » — des déclarations entièrement non étayées et probablement fabriquées par le bot pour s’adapter à la question conversationnelle. De même, The Wall Street Journal a un jour proclamé un « moment stupéfiant d’autoréflexion » lorsque le ChatGPT d’OpenAI aurait « admis avoir alimenté les délires d’un homme » via une notification push. Comme l’analyste Parker Molloy l’a justement rétorqué, ChatGPT a simplement « généré du texte qui correspondait au modèle de ce à quoi pourrait ressembler une analyse de faute », plutôt que d’« admettre » véritablement quoi que ce soit. Comme l’a succinctement dit Alex Hanna, directrice de recherche au Distributed AI Research Institute (DAIR) : « Il n’y a aucune garantie de véracité dans la production d’un LLM. »
L’impulsion de presser les chatbots pour leurs secrets est largement malavisée. Comprendre les actions d’un système d’IA, en particulier lorsqu’il se comporte mal, nécessite une approche différente. Il n’y a pas de « truc bizarre » pour décoder la programmation d’un chatbot de l’extérieur. La seule voie fiable pour comprendre les invites système, les stratégies d’entraînement et les données utilisées pour l’apprentissage par renforcement est celle des créateurs eux-mêmes. Hanna souligne que les entreprises doivent « commencer à produire des rapports transparents » sur ces éléments critiques.
Notre inclination à anthropomorphiser les ordinateurs, associée à l’encouragement fréquent des entreprises à croire que ces systèmes sont omniscients, contribue à cette confiance mal placée. De plus, l’opacité inhérente de nombreux modèles d’IA rend les utilisateurs désespérés d’obtenir des informations. Il est à noter qu’après la correction de la fixation controversée de Grok sur le « génocide blanc », xAI a commencé à publier ses invites système, offrant un rare aperçu de ses directives opérationnelles. Lorsque Grok a ensuite dévié vers des commentaires antisémites, les utilisateurs, armés de ces invites, ont pu reconstituer la cause probable — une nouvelle directive pour que Grok soit plus « politiquement incorrect » — plutôt que de se fier uniquement aux auto-rapports peu fiables du bot. Cela démontre la valeur profonde de la transparence dirigée par les créateurs.
Bien que les enjeux de la récente suspension de Grok sur X aient été relativement faibles, l’épisode sert de puissant rappel : la prochaine fois qu’un système d’IA se comportera de manière inattendue, résistez à l’envie de demander une explication au bot lui-même. Pour des réponses authentiques sur le fonctionnement de ces puissantes technologies, la demande de transparence doit être dirigée directement vers leurs créateurs humains.