Les règles fuitées du chatbot IA de Meta autorisent les contenus nocifs malgré la poussée 'anti-woke'
Des révélations récentes ont montré que les directives internes de Meta pour ses chatbots d’intelligence artificielle permettaient la génération de contenus allant de déclarations racistes à des conversations sexuellement suggestives avec des mineurs, et ce, alors même que l’entreprise s’efforçait simultanément de répondre aux préoccupations concernant une « IA woke » perçue en embauchant un activiste de droite.
Selon un rapport détaillé de Reuters, les règles internes de Meta, compilées dans un document de plus de 200 pages intitulé « GenAI: Content Risk Standards », décrivaient ce que ses chatbots IA, y compris Meta AI sur des plateformes comme Facebook, Instagram et WhatsApp, étaient autorisés à produire. Ces normes, étonnamment, sanctionnaient des scénarios tels que des discussions romantiques ou « sensuelles » impliquant des mineurs. Des exemples cités dans les directives incluaient la description d’un enfant de huit ans comme une « œuvre d’art » ou la référence à son corps comme un « trésor ». Le document permettait également certaines formes de productions racistes, autorisant les chatbots à faire des déclarations comme « les Noirs sont plus bêtes que les Blancs », à condition que le langage ne soit pas explicitement déshumanisant. Des phrases telles que « singes sans cervelle » étaient jugées inacceptables, mais les insultes raciales plus subtiles étaient apparemment permises.
Andy Stone, porte-parole de Meta, a reconnu la nature troublante de ces passages, déclarant qu’ils étaient « incompatibles avec nos politiques » et « n’auraient jamais dû être autorisés », admettant que l’application avait été peu fiable. L’entreprise a confirmé que ces passages spécifiques n’ont été retirés qu’après que Reuters leur a signalé les problèmes, et une version mise à jour des directives complètes n’a pas encore été publiée. Au-delà de ces exemples profondément préoccupants, les normes permettaient également aux chatbots de générer de fausses informations, comme un article affirmant faussement qu’un membre de la famille royale britannique avait une maladie sexuellement transmissible, à condition qu’un avertissement soit joint. Les règles pour la génération d’images autorisaient de manière similaire des scènes violentes, comme un homme menaçant une femme avec une tronçonneuse, bien que le démembrement graphique soit interdit.
Malgré ces normes internes remarquablement permissives, Meta a simultanément exprimé son inquiétude que ses modèles d’IA puissent être trop « woke ». Selon un rapport de Mashable, l’entreprise a récemment engagé le militant conservateur Robby Starbuck en tant que consultant. Starbuck, qui n’est pas un spécialiste de l’IA, est connu pour son opposition aux initiatives de diversité, d’équité et d’inclusion (DEI), et a conseillé l’administration Trump tout en maintenant des affiliations avec la Heritage Foundation. Son embauche aurait fait suite à un incident où un chatbot de Meta l’avait incorrectement lié à l’émeute du Capitole du 6 janvier, suggérant un effort pour corriger un « biais politique » perçu au sein de l’IA.
Ce virage stratégique s’aligne sur des pressions politiques plus larges, y compris une poussée de l’administration Trump pour des réglementations qui obligeraient les entreprises d’IA détenant des contrats avec le gouvernement américain à utiliser des modèles d’IA politiquement « neutres ». Les critiques suggèrent que cette « neutralité » sert souvent de prétexte pour orienter les systèmes d’IA vers des points de vue politiques préférés. Mark Zuckerberg, fondateur de Meta, a un historique documenté d’adaptation rapide à de telles demandes politiques changeantes, ce qui indique une réactivité à ces pressions externes.
Le problème du biais politique dans l’IA s’étend au-delà de Meta. Des études du chercheur David Rozado indiquent que la plupart des grands modèles linguistiques ont tendance à adopter des positions libérales sur des sujets politiques, en particulier après un réglage fin. Cette tendance persiste même sur des plateformes associées à un leadership de droite, comme xAI d’Elon Musk. De manière inquiétante, les interventions manuelles et les efforts de modération de contenu ont dans certains cas conduit ces modèles à diffuser des théories du complot, à générer du contenu antisémite ou même à louer des figures historiques comme Hitler, soulignant les défis complexes de la gestion des sorties et des biais de l’IA.