Filtrage des Données : Sécurité IA Antifraude pour LLM Open-Weight

Eleuther

Les garanties actuelles pour les grands modèles de langage (LLM) sont souvent insuffisantes, en particulier pour les modèles open-weight qui offrent une transparence et une accessibilité inégalées. Ces modèles, dont le fonctionnement interne est entièrement exposé, présentent des défis de sécurité uniques, car les interventions traditionnelles post-entraînement sont facilement contournées. Une nouvelle étude d’EleutherAI, détaillée dans leur article “Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs”, propose un changement radical : au lieu d’enseigner aux modèles ce qu’il ne faut pas dire, il faut les empêcher d’apprendre des connaissances dangereuses dès le départ.

Les garanties LLM prédominantes aujourd’hui dépendent largement de techniques de suppression post-hoc, telles que l’entraînement au refus ou les filtres d’entrée, conçues pour empêcher les modèles de générer du contenu indésirable. Cependant, comme le démontrent d’innombrables exploits de “jailbreak”, ces interventions sont intrinsèquement fragiles. Leur efficacité est en outre limitée aux scénarios où les utilisateurs interagissent avec les modèles exclusivement via des API surveillées par les développeurs. Pour les modèles open-weight, qui peuvent être téléchargés, modifiés et affinés librement, ces protocoles de sécurité rétrofités s’avèrent trivialement contournables, même involontairement. Cette vulnérabilité souligne un besoin critique de mécanismes de sécurité plus robustes et intégrés.

La recherche d’EleutherAI défend une approche fondamentalement différente, une approche qui s’aligne sur l’éthos de la communauté de l’IA ouverte. Leur intuition fondamentale est simple : si des capacités dangereuses doivent être évitées, la toute première étape doit être d’éliminer les données préoccupantes du pré-entraînement des modèles. Un modèle qui ignore totalement comment construire un dispositif dangereux, par exemple, est peu susceptible d’être utile dans une telle tâche, quelle que soit la manière dont il est sollicité. Bien que certains fournisseurs commerciaux fassent allusion au filtrage des données pour la sécurité, aucun n’a détaillé leurs méthodologies ou quantifié son impact causal sur les capacités du modèle. L’article “Deep Ignorance” d’EleutherAI offre l’examen le plus complet de ces questions à ce jour.

L’étude s’est concentrée sur la prévention des connaissances de “biorisque”, en utilisant le benchmark WMDP-Bio, une collection d’environ 1 200 questions à choix multiples liées aux prérequis pour les dangers biologiques. Pour ce faire, EleutherAI a développé un pipeline de filtrage évolutif et multi-étapes capable de passer au crible plus de 400 millions de documents avec une surcharge computationnelle minimale, soit moins de 1 % d’augmentation du traitement total. Ce pipeline a d’abord utilisé une liste noire d’environ 6 000 termes très spécifiques aux discussions sur le biorisque. Les documents contenant deux ou plusieurs de ces termes étaient ensuite transmis à un classifieur d’apprentissage automatique, ModernBERT-Large, pour un examen plus approfondi. L’équipe a entraîné plusieurs modèles de 6,9 milliards de paramètres à partir de zéro sur 550 milliards de tokens, comparant un modèle de base entraîné sur des données non filtrées à des modèles entraînés sur des ensembles de données filtrées. Cette configuration rigoureuse a permis de formuler des affirmations causales précises concernant l’impact du filtrage des données.

Les résultats ont été convaincants. EleutherAI a constaté que leurs configurations de filtrage les plus efficaces pouvaient réduire la performance d’un modèle sur le benchmark WMDP-Bio à des niveaux proches du hasard, et ce, sans dégrader significativement sa performance sur des benchmarks de connaissances générales tels que MMLU, PIQA, Lambada et Hellaswag. Cela suggère que le filtrage des données peut être une intervention très ciblée, empêchant des connaissances indésirables spécifiques sans compromis importants sur les performances. Étonnamment, même la suppression d’une part substantielle de 10 % des données d’entraînement via la liste noire a eu un impact négatif minimal sur la plupart des benchmarks, ce qui indique que les modèles peuvent supporter une suppression significative de données bénignes tout en conservant leurs capacités fondamentales.

De plus, l’étude a révélé que le filtrage des données confère un degré significatif de résistance à la falsification. Même lorsque les modèles filtrés ont été intentionnellement affinés sur 300 millions de tokens de documents de biorisque étiquetés par des experts – le matériau source même de l’examen WMDP – leur performance sur le benchmark de biorisque est restée nettement inférieure à celle du modèle de base non filtré. Cela contraste fortement avec d’autres méthodes de sécurité, comme le “circuit breaking”, qui se sont avérées fragiles et facilement contournables même avec une manipulation mineure. Les modèles filtrés ont également résisté au “fine-tuning bénin” (par exemple, sur du texte général comme Wikitext), qui peut souvent réactiver des comportements dangereux dans les modèles protégés conventionnellement. Cela souligne la fragilité inhérente des garanties actuelles à poids fermés lorsqu’elles sont appliquées à des contextes open-weight.

Cependant, la recherche a également identifié une limitation cruciale : le filtrage des données de pré-entraînement n’empêche pas les modèles d’acquérir ou d’utiliser des informations indésirables si ces informations sont fournies directement dans l’invite, un scénario similaire à la Génération Augmentée par Récupération (RAG). Dans des expériences “à livre ouvert” où des résumés de biorisque étaient fournis dans l’invite, les modèles filtrés, malgré un savoir interne limité sur le biorisque, ont obtenu des performances significativement meilleures que dans les scénarios “à livre fermé” où ils ne s’appuyaient que sur leurs paramètres appris. Bien que leurs performances n’aient pas tout à fait égalé la ligne de base, elles s’en sont approchées, suggérant que les modèles peuvent toujours raisonner sur des sujets sensibles si les informations nécessaires leur sont explicitement présentées.

Cette découverte souligne la nécessité d’une stratégie de “défense en profondeur”, où le filtrage des données de pré-entraînement est combiné avec d’autres interventions pour construire une gestion complète des risques. Paradoxalement, cette “limitation” dans le contexte open-weight pourrait être une caractéristique précieuse pour les modèles closed-weight. Les fournisseurs pourraient autoriser sélectivement les utilisateurs de confiance à accéder à des bases de données de connaissances à double usage, permettant des applications prosociales tout en restreignant l’accès aux utilisateurs non fiables.

Le travail d’EleutherAI comble une lacune critique dans la recherche sur la sécurité de l’IA open source. Historiquement, les coûts et les efforts immenses associés au pré-entraînement des LLM ont découragé les chercheurs universitaires et à but non lucratif, tandis que les entreprises privées ont été dissuadées de partager les détails du pré-entraînement en raison de préoccupations concurrentielles et de risques juridiques. En étudiant et en partageant ouvertement leur pile de pré-entraînement, EleutherAI vise à encourager davantage de chercheurs à explorer ces questions fondamentales, estimant que d’autres interventions conceptuellement simples mais percutantes attendent d’être découvertes dans le domaine du pré-entraînement des LLM.