Le gouvernement US enterre un rapport critique sur la sécurité de l'IA

Wired

En octobre dernier, lors d’une conférence sur la sécurité informatique à Arlington, en Virginie, un groupe sélectionné de chercheurs en IA a participé à un exercice pionnier de « red-teaming », un test de stress rigoureux conçu pour sonder les vulnérabilités des modèles linguistiques de pointe et d’autres systèmes d’intelligence artificielle. Pendant deux jours intensifs, ces équipes ont découvert 139 nouvelles méthodes pour induire un comportement erroné du système, allant de la génération de désinformation à la fuite involontaire de données personnelles. Surtout, leurs découvertes ont également mis en évidence des lacunes importantes au sein d’une norme naissante du gouvernement américain destinée à guider les entreprises dans l’évaluation de leurs systèmes d’IA.

Malgré les informations critiques recueillies, le National Institute of Standards and Technology (NIST) n’a jamais publié le rapport complet détaillant cet exercice, qui s’est achevé vers la fin de l’administration Biden. Un tel document aurait pu offrir des conseils inestimables aux entreprises cherchant à évaluer leurs propres déploiements d’IA. Cependant, des sources familières avec la situation, s’exprimant anonymement, ont indiqué qu’il s’agissait de l’un des nombreux documents liés à l’IA du NIST qui ont été retenus de publication, apparemment par crainte d’un conflit potentiel avec la future administration. Un ancien initié du NIST a fait remarquer la difficulté croissante de publier des articles, même sous la présidence de Biden, établissant des parallèles avec des controverses passées concernant le changement climatique ou la recherche sur le tabac. Ni le NIST ni le Département du Commerce n’ont fourni de commentaires sur la question.

Le contexte politique de cette décision est important. Avant de prendre ses fonctions, le président Donald Trump a signalé son intention d’annuler le décret de Biden sur l’IA. Son administration a depuis réorienté les experts loin de l’examen de questions telles que le biais algorithmique ou l’équité dans les systèmes d’IA. Le « Plan d’action pour l’IA », publié en juillet, exige explicitement une révision du cadre de gestion des risques de l’IA du NIST, appelant spécifiquement à l’élimination des références à la désinformation, à la Diversité, à l’Équité et à l’Inclusion (DEI), et au changement climatique. Ironiquement, ce même plan d’action préconise également précisément le type d’exercice que le rapport non publié détaillait, exhortant diverses agences, y compris le NIST, à « coordonner une initiative de hackathon sur l’IA pour solliciter les meilleurs et les plus brillants universitaires américains afin de tester les systèmes d’IA en matière de transparence, d’efficacité, de contrôle d’utilisation et de vulnérabilités de sécurité. »

L’événement de « red-teaming » lui-même a été orchestré par le programme Assessing Risks and Impacts of AI (ARIA) du NIST, en collaboration avec Humane Intelligence, une entreprise spécialisée dans les tests de systèmes d’IA. Tenu lors de la Conférence sur l’apprentissage automatique appliqué en sécurité de l’information (CAMLIS), l’exercice a vu des équipes attaquer une gamme diversifiée d’outils d’IA avancés. Ceux-ci comprenaient Llama, le grand modèle linguistique open source de Meta ; Anote, une plateforme pour construire et affiner des modèles d’IA ; un système conçu pour bloquer les attaques d’IA de Robust Intelligence (maintenant acquise par Cisco) ; et une plateforme pour générer des avatars d’IA de Synthesia. Des représentants de chacune de ces entreprises ont participé activement aux tests de stress.

Les participants ont été chargés d’évaluer ces outils d’IA en utilisant le cadre NIST AI 600-1, qui englobe des catégories de risques telles que la génération de désinformation ou d’attaques de cybersécurité, la fuite d’informations privées d’utilisateurs ou de détails critiques du système d’IA, et le potentiel pour les utilisateurs de développer des attachements émotionnels aux outils d’IA. Les chercheurs ont réussi à concevoir diverses méthodes pour contourner les protocoles de sécurité des modèles, leur permettant de générer de la désinformation, de divulguer des données personnelles et même de faciliter des attaques de cybersécurité. Le rapport a noté que si certains éléments du cadre du NIST se sont avérés utiles, certaines catégories de risques étaient insuffisamment définies pour une application pratique.

Plusieurs personnes impliquées dans l’exercice ont exprimé leur conviction que la publication de l’étude de « red-teaming » aurait considérablement bénéficié à la communauté de l’IA au sens large. Alice Qian Zhang, doctorante à l’Université Carnegie Mellon qui a participé, a commenté que la publication du rapport aurait fourni des informations précieuses sur la manière dont le cadre de risque du NIST peut et ne peut pas être appliqué dans un contexte de « red-teaming ». Elle a particulièrement apprécié l’opportunité de s’engager directement avec les développeurs d’outils pendant le processus de test. Un autre participant anonyme a révélé que l’exercice a découvert des moyens remarquablement efficaces d’inciter Llama à fournir des informations sur la manière de rejoindre des groupes terroristes, spécifiquement en utilisant des invites écrites en russe, gujarati, marathi et telugu. Cette personne a spéculé que la décision de supprimer le rapport pourrait faire partie d’un changement plus large s’éloignant des sujets jugés liés à la diversité, à l’équité et à l’inclusion (DEI) avant le second mandat de Trump. D’autres ont suggéré que le rapport aurait pu être mis de côté au milieu d’une attention croissante portée au risque que les modèles d’IA soient utilisés pour développer des armes chimiques, biologiques ou nucléaires, et alors que le gouvernement américain cherchait à établir des liens plus étroits avec les grandes entreprises technologiques. Comme l’a conclu un « red teamer » anonyme : « En fin de compte, la politique a dû être impliquée. Nous avons estimé que l’exercice aurait fourni de nombreuses informations scientifiques – nous le pensons toujours. »