L'IA échoue en histoire : Les historiens, à l'abri de la robotisation

Gizmodo

Les récentes discussions autour de l’intelligence artificielle suggèrent souvent que l’IA augmentera bientôt, voire remplacera entièrement, les emplois humains. Une étude récente de Microsoft, par exemple, a classé de manière provocante les historiens au deuxième rang des professions les plus susceptibles d’être améliorées par l’IA. Cette projection a, à juste titre, suscité des inquiétudes au sein de la communauté historique. Cependant, après des tests personnels approfondis des principaux outils d’IA générative avec des faits historiques spécifiques, il devient clair que les historiens n’ont pas à craindre une obsolescence immédiate. Actuellement, l’IA est loin d’être capable d’effectuer leur travail complexe de manière efficace.

Ma fascination pour les films que les présidents américains ont regardés durant leur mandat est devenue le banc d’essai idéal pour ces systèmes d’IA. Depuis 2012, j’ai méticuleusement recherché cette niche, de la projection du documentaire ornithologique de Teddy Roosevelt en 1908 aux administrations plus récentes. Mon parcours a commencé par la découverte de la liste de films de Ronald Reagan à la Maison Blanche, ce qui a mené à une demande au titre de la loi sur la liberté d’information (FOIA) concernant les habitudes de visionnage de Barack Obama – une demande qui a révélé que les dossiers présidentiels sont exemptés de la FOIA jusqu’à cinq ans après le départ d’un président de ses fonctions. Sans me décourager, j’ai depuis exploré un vaste éventail de sources, compilant une base de données historique détaillée, bien qu’inhabituelle. Tester l’IA avec des informations que je connais intimement m’a permis d’évaluer leur précision, une étape cruciale souvent négligée par les utilisateurs qui interrogent généralement ces outils sur des sujets qu’ils ne connaissent pas. Les résultats ont été très révélateurs pour quiconque compte sur les chatbots IA pour des informations précises.

Mes tentatives initiales ont impliqué les modèles phares d’OpenAI, y compris ce qui était présenté comme GPT-5, en posant des questions sur des films spécifiques regardés par des présidents comme Woodrow Wilson, Dwight Eisenhower, Richard Nixon et les deux George Bush à des dates précises. Les réponses d’OpenAI étaient systématiquement inutiles, déclarant souvent qu’aucun enregistrement ne pouvait être trouvé, ou, dans certains cas, fabriquant des informations. Bien que, heureusement, ils ne fabriquent pas purement et simplement, les modèles n’ont pas réussi à répondre à des questions même relativement simples. Ce manque de transparence concernant le modèle en coulisses, associé à une incapacité générale à fournir des détails historiques précis, a mis en évidence une faiblesse significative, malgré les promesses antérieures du PDG Sam Altman de capacités d’“expert de niveau doctorat”.

Les lacunes ne se limitaient pas à OpenAI. D’autres chatbots IA majeurs, y compris Google Gemini, Microsoft Copilot, Perplexity et Grok de xAI, ont également démontré des inexactitudes considérables. Par exemple, lorsqu’on lui a demandé quel film le président Eisenhower avait regardé le 11 août 1954, la “Réponse Rapide” de Copilot a suggéré à tort Les Invaincus, un documentaire dans lequel Eisenhower apparaît brièvement. Le passage au mode “Recherche Approfondie” de Copilot a produit un rapport tentaculaire de 3 500 mots spéculant qu’Eisenhower avait “probablement” regardé Soudain, un film qui n’est sorti que des mois après la date de la requête. L’“analyse” de Copilot citait des “preuves circonstancielles et secondaires”, une expression qui, dans ce contexte, relevait de la pure conjecture, étant donné que la bonne réponse — La Rivière sans retour, confirmée par le journal de bord d’un projectionniste de la Maison Blanche — a été entièrement manquée. Gemini n’a fourni aucune réponse, tandis que Perplexity a également deviné incorrectement Soudain, apparemment induit en erreur par une anecdote amusante sur l’inspiration du film.

Des schémas d’erreur similaires sont apparus avec d’autres enquêtes présidentielles. Lorsqu’on lui a demandé les habitudes de visionnage de Richard Nixon le 12 février 1971, la “Réponse Rapide” de Copilot a affirmé qu’il avait regardé Patton à Key Biscayne, citant un lien des Archives nationales qui, après vérification, ne contenait aucune information de ce type. Bien que la “Recherche Approfondie” de Copilot ait finalement correctement identifié La Grande Course, elle a simultanément introduit de nouvelles fausses affirmations concernant le visionnage de Patton par Nixon à d’autres dates. Perplexity a suggéré à tort Le Bon, la Brute et le Truand, confondant la date avec un visionnage d’un an plus tard.

Les défis se sont intensifiés avec des faits plus obscurs. Par exemple, Woodrow Wilson a regardé La Crise le 6 mars 1917, un film muet que j’ai personnellement trouvé et mis en ligne parce qu’il n’était pas disponible publiquement. La plupart des modèles d’IA ont soit fait chou blanc, soit suggéré à tort La Naissance d’une nation, la projection la plus célèbre de Wilson à la Maison Blanche, mais bien plus tôt. ChatGPT a même affirmé faussement que La Naissance d’une nation était le premier film jamais projeté à la Maison Blanche, ignorant les visionnages antérieurs par Taft et Teddy Roosevelt.

Même lorsqu’une IA parvenait à fournir la bonne réponse, son raisonnement ou ses sources soulevaient souvent des doutes. Grok de xAI, par exemple, a finalement correctement identifié La Rivière sans retour d’Eisenhower après avoir été invité à “réfléchir plus fort”, mais sa source était mon propre compte Twitter obscur, manquant de citation directe. Cela souligne la dépendance de Grok vis-à-vis des données internet facilement disponibles, souvent non vérifiées. De même, lorsque Grok a correctement identifié le visionnage par George W. Bush du court documentaire Twin Towers le 10 septembre 2003, il a cité des documents FOIA que j’avais précédemment demandés, synthétisant ainsi ma propre recherche antérieure plutôt que de mener une nouvelle enquête.

Ces tests, bien que non scientifiques au sens académique, ont été conçus pour évaluer l’utilité pratique de l’IA pour une recherche historique précise. Ils révèlent que, bien que les entreprises d’IA se vantent d’une amélioration du raisonnement et d’une réduction des “hallucinations”, la performance réelle pour des informations spécifiques et nuancées reste profondément défectueuse. Les outils d’IA générative sont commercialisés comme des moteurs de connaissance polyvalents, une “commande difficile” qu’ils ne parviennent systématiquement pas à satisfaire lorsqu’ils sont confrontés à des informations qui ne sont pas largement numérisées ou facilement synthétisées à partir de sources internet courantes.

Le rôle d’un historien s’étend bien au-delà de la simple compilation de faits publiés. La véritable recherche historique implique de déterrer des documents difficiles à trouver dans les archives, de mener des entretiens avec des témoins primaires ou des experts, d’évaluer de manière critique les sources contradictoires et, en fin de compte, de contribuer à de nouvelles interprétations et compréhensions du passé. Mes tests, axés uniquement sur des dates et des titres de films spécifiques, ne représentent qu’une infime fraction de ce que fait un historien.

Bien que les outils d’IA se révèlent sans aucun doute utiles pour d’innombrables tâches, il est crucial de tempérer la croyance généralisée en leur toute-puissance. Défier périodiquement ces outils “divins” avec des faits que l’on connaît intimement sert de rappel essentiel de leurs limites. Une dépendance excessive à l’IA sans une surveillance humaine critique risque non seulement de promouvoir l’ignorance, mais aussi de saper la quête même d’une connaissance précise.