Le gouvernement américain a étouffé une étude majeure sur les failles de l'IA

Decoder

Une importante étude du gouvernement des États-Unis, qui a découvert 139 nouvelles méthodes d’exploitation des vulnérabilités des principaux systèmes d’intelligence artificielle, aurait été retirée de la publication publique en raison de pressions politiques. Cette suppression intervient à un moment particulier, alors que de nouvelles directives fédérales préconisent discrètement le type même de tests rigoureux de sécurité de l’IA que le rapport non publié détaille.

L’étude est issue d’un exercice de «red-teaming» de deux jours mené en octobre 2024, impliquant environ 40 chercheurs en IA lors d’une conférence sur la sécurité à Arlington, en Virginie. Cet événement faisait partie du programme ARIA, une initiative du National Institute of Standards and Technology (NIST) des États-Unis en collaboration avec la société de sécurité IA Humane Intelligence. Malgré ses conclusions critiques, les résultats de cette évaluation complète n’ont jamais été rendus publics.

Au cours de l’exercice, des équipes d’experts ont systématiquement sondé plusieurs systèmes d’IA avancés à la recherche de faiblesses potentielles. Les cibles incluaient le grand modèle linguistique open-source Llama de Meta, la plateforme de modélisation IA Anote, le générateur d’avatars de Synthesia et un système de sécurité développé par Robust Intelligence (désormais partie de Cisco). Des représentants de ces entreprises étaient présents, supervisant l’évaluation. L’objectif principal était d’appliquer le cadre officiel AI 600-1 du NIST pour évaluer l’efficacité avec laquelle ces systèmes pouvaient résister à une utilisation abusive, telle que la propagation de la désinformation, la fuite de données privées sensibles ou le développement d’attachements émotionnels malsains entre les utilisateurs et les outils d’IA.

Les chercheurs ont identifié avec succès 139 façons distinctes de contourner les protections existantes du système. Par exemple, les participants ont découvert que le modèle Llama de Meta pouvait être manipulé en le sollicitant dans des langues moins courantes comme le russe, le marathi, le telugu ou le gujarati pour obtenir des informations sur l’adhésion à des organisations terroristes. D’autres systèmes se sont avérés sensibles à des tactiques qui pouvaient les forcer à divulguer des données personnelles ou à fournir des instructions pour lancer des cyberattaques. Paradoxalement, certaines catégories du cadre officiel du NIST, destinées à guider de telles évaluations, auraient été trop vaguement définies pour être pratiques dans une application réelle.

Des sources familières avec le dossier ont indiqué à WIRED que le rapport achevé a été délibérément supprimé pour éviter d’éventuels conflits avec la future administration Trump. Un ancien membre du personnel du NIST a corroboré la difficulté de publier des études similaires même sous le président Biden, établissant des parallèles avec des cas historiques d’ingérence politique dans la recherche concernant le changement climatique ou le tabac. Le Département du Commerce et le NIST ont tous deux refusé de commenter ces allégations.

Ironiquement, le plan d’action sur l’IA dévoilé par l’administration Trump en juillet appelle explicitement au même type d’exercices de «red-teaming» décrits dans le rapport non publié. De plus, cette nouvelle politique exige des révisions du cadre du NIST, nécessitant spécifiquement la suppression de termes tels que «désinformation», «diversité, équité et inclusion» (DEI) et «changement climatique». Un participant anonyme à l’exercice spécule que la suppression du rapport pourrait être liée à la résistance politique entourant les sujets de DEI. Une autre théorie suggère que l’attention du gouvernement s’est peut-être déplacée vers la prévention des armes de destruction massive basées sur l’IA, ce qui a conduit à la mise à l’écart d’autres recherches sur les vulnérabilités. Indépendamment des raisons précises, le fait de mettre de côté une étude significative révélant des vulnérabilités critiques de l’IA soulève de sérieuses questions sur la transparence et la priorisation de la sécurité publique dans le paysage en évolution rapide de l’intelligence artificielle.