Le MIT lance un outil open source pour évaluer les classificateurs de texte IA
Alors que les grands modèles linguistiques (LLM) imprègnent de plus en plus notre quotidien, l’impératif de les tester rigoureusement et d’assurer leur fiabilité n’a jamais été aussi grand. Qu’il s’agisse de discerner si une critique de film est un éloge dithyrambique ou une critique acerbe, de classer une actualité comme relevant du commerce ou de la technologie, ou de surveiller un chatbot en ligne pour l’empêcher de dispenser des conseils financiers non autorisés ou de la désinformation médicale, ces évaluations automatisées sont désormais principalement gérées par des algorithmes sophistiqués connus sous le nom de classificateurs de texte. La question cruciale demeure cependant : comment pouvons-nous véritablement nous assurer de la précision de ces classifications ?
Une équipe du Laboratory for Information and Decision Systems (LIDS) du MIT a récemment dévoilé une approche innovante conçue non seulement pour mesurer l’efficacité de ces classificateurs, mais aussi pour fournir une voie claire pour améliorer leur précision. Le nouveau logiciel d’évaluation et de remédiation, développé par le chercheur principal Kalyan Veeramachaneni, ainsi que ses étudiants Lei Xu et Sarah Alnegheimish et deux autres collaborateurs, est mis gratuitement à disposition en téléchargement, offrant une contribution significative à la communauté plus large de l’IA.
Traditionnellement, le test des systèmes de classification implique la création d’« exemples synthétiques » — des phrases conçues pour ressembler à celles déjà classifiées. Par exemple, les chercheurs pourraient prendre une phrase précédemment étiquetée comme une critique positive et modifier subtilement un mot ou deux, dans le but de tromper le classificateur pour qu’il l’interprète à tort comme négative, même si le sens fondamental reste inchangé. De même, une phrase considérée comme de la désinformation pourrait être légèrement modifiée pour être mal classifiée comme exacte. Ces exemples trompeurs, connus sous le nom d’exemples contradictoires ou adversariaux, exposent les vulnérabilités des classificateurs. Bien que diverses méthodes aient été tentées pour découvrir ces faiblesses, les techniques existantes peinent souvent, manquant de nombreuses instances critiques.
La demande pour de tels outils d’évaluation est croissante, d’autant plus que les entreprises déploient de plus en plus de chatbots à des fins diverses, s’efforçant de s’assurer que leurs réponses sont appropriées et sûres. Une banque, par exemple, pourrait utiliser un chatbot pour des demandes courantes de clients, telles que la vérification des soldes de compte, mais doit rigoureusement s’assurer qu’il ne fournit jamais par inadvertance des conseils financiers, ce qui pourrait exposer l’institution à des responsabilités. Comme l’explique Veeramachaneni, « Avant de montrer la réponse du chatbot à l’utilisateur final, ils veulent utiliser le classificateur de texte pour détecter s’il donne des conseils financiers ou non. » Cela nécessite un test robuste du classificateur lui-même.
La méthode de l’équipe du MIT exploite la technologie même qu’elle vise à améliorer : les grands modèles linguistiques (LLM). Lorsqu’un exemple contradictoire est créé — une phrase légèrement modifiée qui conserve le sens original mais trompe le classificateur —, un autre LLM est utilisé pour confirmer cette équivalence sémantique. Si le LLM vérifie que deux phrases véhiculent le même sens, mais que le classificateur leur attribue des étiquettes différentes, alors, comme le note Veeramachaneni, « c’est une phrase contradictoire — elle peut tromper le classificateur. » Curieusement, les chercheurs ont découvert que la plupart de ces attaques contradictoires réussies impliquaient un seul mot modifié, une subtilité souvent inaperçue par ceux qui utilisent les LLM pour générer les phrases alternatives.
Grâce à une analyse approfondie de milliers d’exemples, utilisant à nouveau les LLM, l’équipe a découvert que certains mots spécifiques exerçaient une influence disproportionnée sur la modification des classifications. Cette information cruciale permet une approche beaucoup plus ciblée pour tester la précision d’un classificateur, en se concentrant sur un petit sous-ensemble de mots qui font constamment la différence la plus significative. Lei Xu, une récente diplômée du LIDS dont la thèse de doctorat a contribué de manière significative à cette analyse, « a utilisé de nombreuses techniques d’estimation intéressantes pour déterminer quels sont les mots les plus puissants qui peuvent changer la classification globale, qui peuvent tromper le classificateur », a précisé Veeramachaneni. Cette approche rationalise considérablement la charge computationnelle de la génération d’exemples contradictoires.
S’appuyant sur cela, le système utilise en outre des LLM pour identifier les mots étroitement liés à ces termes « puissants », créant un classement complet basé sur leur influence sur les résultats de classification. Une fois identifiées, ces phrases contradictoires peuvent ensuite être utilisées pour réentraîner le classificateur, améliorant considérablement sa robustesse contre de telles erreurs.
Les implications de l’amélioration de la précision des classificateurs vont bien au-delà de la simple catégorisation d’articles de presse ou de critiques de films. De plus en plus, ces systèmes sont déployés dans des environnements à enjeux élevés où une erreur de classification peut avoir de graves conséquences. Cela inclut la prévention de la divulgation involontaire d’informations médicales, financières ou de sécurité sensibles, l’orientation de la recherche critique dans des domaines comme la biomédecine, ou l’identification et le blocage des discours de haine et de la désinformation.
En conséquence directe de cette recherche, l’équipe a introduit une nouvelle métrique, nommée « p », qui quantifie la résilience d’un classificateur face aux attaques à un seul mot. Reconnaissant l’importance critique d’atténuer de telles erreurs de classification, l’équipe de recherche a rendu ses outils accessibles au public. Le package comprend deux composants clés : SP-Attack, qui génère des phrases contradictoires pour tester les classificateurs dans diverses applications, et SP-Defense, conçu pour améliorer la robustesse du classificateur en utilisant ces exemples contradictoires pour le réentraînement du modèle.
Dans certains tests, où les méthodes concurrentes permettaient aux attaques contradictoires d’atteindre un taux de succès de 66 %, le système de l’équipe du MIT a presque réduit ce chiffre de moitié, ramenant le taux de succès des attaques à 33,7 %. Bien que d’autres applications aient montré une amélioration plus modeste de 2 %, même de tels gains apparemment minimes sont immensément significatifs si l’on considère les milliards d’interactions que ces systèmes gèrent quotidiennement, où même un léger pourcentage peut avoir un impact sur des millions de transactions. Les conclusions de l’équipe ont été publiées le 7 juillet dans la revue Expert Systems, dans un article co-écrit par Xu, Veeramachaneni et Alnegheimish du LIDS, aux côtés de Laure Berti-Equille de l’IRD à Marseille, France, et Alfredo Cuesta-Infante de l’Universidad Rey Juan Carlos, en Espagne.