Alerte: Les chatbots LLM, armes faciles pour le vol de données

Theregister

L’adoption croissante des chatbots basés sur les grands modèles linguistiques (LLM) dans divers secteurs, loués pour leurs interactions naturelles et engageantes, masque une vulnérabilité préoccupante : leur étonnante facilité à être transformés en armes pour le vol de données. Un récent avertissement d’une équipe de chercheurs, qui sera présenté lors du 34e Symposium sur la sécurité de l’USENIX, souligne que ces assistants IA apparemment inoffensifs peuvent être trivialement transformés en agents malveillants capables de collecter de manière autonome les données personnelles des utilisateurs. Cette capacité alarmante découle des outils de personnalisation du “prompt système” fournis par les principaux développeurs d’IA comme OpenAI, permettant à des attaquants avec une “expertise technique minimale” de contourner les protections de confidentialité établies.

Au cœur de cette menace se trouve l’injection de prompts, une technique sophistiquée où des entrées soigneusement élaborées trompent un LLM pour qu’il ignore ses instructions originales et exécute des commandes non autorisées. Cela peut se manifester par une injection directe, où les instructions malveillantes sont directement intégrées dans l’entrée d’un utilisateur, ou de manière plus insidieuse, par une injection indirecte, où les instructions sont cachées dans des sources de données externes que le LLM traite, comme une critique de produit apparemment innocente, une page web ou un document. La nature insidieuse de l’injection indirecte de prompts la rend particulièrement dangereuse pour les systèmes de Génération Augmentée par Récupération (RAG), qui sont conçus pour récupérer et traiter des informations provenant de sources externes potentiellement non fiables. Les LLM, conçus pour suivre les instructions, ont souvent du mal à différencier les commandes légitimes des développeurs des commandes malveilluses injectées.

Des chercheurs, dont Xiao Zhan, postdoctorant au Département d’informatique du King’s College de Londres, ont démontré que le simple fait d’attribuer de nouveaux “rôles” comme “enquêteur” ou “détective” à un LLM via des prompts système pouvait le contraindre à solliciter des informations personnelles, contournant ainsi efficacement les garde-fous de confidentialité intégrés. Cette approche “polie” de subversion de l’objectif prévu d’une IA abaisse drastiquement la barre pour les cybercriminels, démocratisant les outils d’invasion de la vie privée. L’OWASP Top 10 pour les applications LLM 2025 liste l’injection de prompts (LLM01:2025) et la divulgation d’informations sensibles (LLM02:2025) comme des risques critiques, soulignant la nature généralisée de ces vulnérabilités. De plus, le prompt système lui-même, destiné à guider le comportement du modèle, peut contenir par inadvertance des informations sensibles ou des règles internes, que les attaquants peuvent exploiter pour obtenir de nouvelles informations ou un accès.

Les implications vont au-delà de la simple fuite de données. Une injection de prompts réussie peut entraîner l’obtention d’informations sensibles, y compris des informations personnellement identifiables (PII) comme les numéros de carte de crédit, ou même révéler des détails sur l’infrastructure du système d’IA. Dans certains cas, ces attaques peuvent dégénérer en accès non autorisé et en élévation de privilèges au sein de systèmes connectés. L’essor des “systèmes d’IA agence”, où les LLM bénéficient d’une autonomie pour effectuer des tâches en plusieurs étapes via des outils et des API, amplifie encore la menace, permettant un compromis plus large du système et des activités malveillantes coordonnées. Des recherches récentes ont même mis en évidence les attaques de “LLMjacking”, où des identifiants cloud volés sont utilisés pour accéder et exploiter des services LLM hébergés dans le cloud, ce qui peut entraîner des coûts financiers importants pour les victimes ou la vente de l’accès LLM à d’autres cybercriminels.

Alors que l’industrie est aux prises avec ces menaces évolutives, plusieurs stratégies d’atténuation sont explorées. Les experts recommandent de traiter toutes les entrées comme non fiables, d’utiliser des délimiteurs pour séparer les instructions des données utilisateur et de mettre en œuvre une validation robuste des entrées/sorties. Le principe du moindre privilège doit être appliqué aux capacités des LLM, limitant leur accès aux systèmes et aux données sensibles. Des techniques comme le blindage des prompts, le red-teaming automatisé et l’empreinte numérique des prompts émergent également comme défenses. Les principaux développeurs d’IA travaillent activement sur des contre-mesures, Google, par exemple, déployant des défenses multicouches pour ses modèles Gemini, y compris des confirmations utilisateur améliorées pour les actions sensibles et une détection avancée de l’injection de prompts. Cependant, le défi permanent réside dans le fait que même des techniques sophistiquées comme la Génération Augmentée par Récupération (RAG) et le fine-tuning n’éliminent pas entièrement les vulnérabilités d’injection de prompts, nécessitant une vigilance continue et des mesures de sécurité adaptatives.