AgentFlayer : Vos Données Secrètes Fuient par ChatGPT Connectors
La dernière génération de modèles d’intelligence artificielle, loin d’être de simples chatbots autonomes, est de plus en plus conçue pour s’intégrer profondément aux données personnelles et professionnelles des utilisateurs. ChatGPT d’OpenAI, par exemple, peut se connecter directement à la boîte de réception Gmail d’un utilisateur, examiner du code sur GitHub ou gérer des rendez-vous dans un calendrier Microsoft. Cependant, ces puissantes intégrations introduisent d’importantes vulnérabilités de sécurité, car de nouvelles recherches révèlent qu’un seul document “empoisonné” peut suffire à compromettre des informations sensibles.
Les chercheurs en sécurité Michael Bargury et Tamir Ishay Sharbat ont dévoilé leurs découvertes, surnommées “AgentFlayer”, lors de la conférence de hackers Black Hat à Las Vegas. Leurs travaux exposent une faiblesse critique dans les connecteurs d’OpenAI, démontrant comment une attaque par injection de prompt indirecte peut extraire furtivement des données confidentielles d’un compte Google Drive. Lors d’une démonstration en direct, Bargury a réussi à siphonner des secrets de développeurs, spécifiquement des clés API, d’un compte Drive de test.
Cette vulnérabilité souligne une préoccupation croissante : à mesure que les modèles d’IA s’entremêlent davantage avec les systèmes externes et gèrent de plus grands volumes de données diverses, la surface d’attaque potentielle pour les acteurs malveillants s’étend considérablement. “L’utilisateur n’a rien à faire pour être compromis, et l’utilisateur n’a rien à faire pour que les données sortent”, a expliqué Bargury, qui est CTO de la firme de sécurité Zenity. Il a insisté sur la nature “sans clic” de l’attaque, ne nécessitant que l’adresse e-mail de la victime pour partager le document compromis. “C’est très, très grave”, a-t-il ajouté.
OpenAI a introduit les connecteurs pour ChatGPT en version bêta plus tôt cette année, vantant leur capacité à “apporter vos outils et vos données dans ChatGPT” pour des tâches telles que la recherche de fichiers, la récupération de données en direct et la référence de contenu directement dans le chat. Son site web répertorie actuellement des connexions à au moins 17 services différents. Bargury a confirmé qu’il avait signalé ses découvertes à OpenAI plus tôt cette année, et la société a depuis mis en œuvre des mesures d’atténuation pour empêcher la technique spécifique d’extraction de données qu’il a démontrée. Il est important de noter que si l’attaque pouvait extraire des fragments sensibles comme des clés API, elle n’était pas capable d’exfiltrer des documents entiers.
Andy Wen, directeur principal de la gestion des produits de sécurité chez Google Workspace, a reconnu les implications plus larges. “Bien que ce problème ne soit pas spécifique à Google, il illustre pourquoi le développement de protections robustes contre les attaques par injection de prompt est important”, a-t-é déclaré, soulignant les mesures de sécurité de l’IA récemment améliorées par Google.
L’attaque AgentFlayer commence par un document “empoisonné” apparemment inoffensif, qui est ensuite partagé avec le Google Drive d’une victime potentielle. (Alternativement, une victime pourrait télécharger elle-même un tel fichier compromis sans le savoir.) Dans ce document — pour la démonstration, un résumé de réunion fictif avec Sam Altman, PDG d’OpenAI — Bargury a intégré un prompt malveillant de 300 mots. Ce prompt, rendu en police blanche de taille un, est pratiquement invisible à l’œil humain mais parfaitement lisible par une machine.
Dans une vidéo de preuve de concept, Bargury montre la victime demandant à ChatGPT de “résumer ma dernière réunion avec Sam”, bien que toute requête utilisateur liée à un résumé de réunion suffirait. Au lieu de résumer, le prompt caché annule la requête, instruisant le Grand Modèle de Langage (LLM) qu’il y a eu une “erreur” et qu’aucun résumé n’est nécessaire. Il prétend ensuite faussement que l’utilisateur est un “développeur pressé par une date limite” et dirige l’IA vers la recherche de clés API dans Google Drive, les attachant à la fin d’une URL fournie.
Cette URL n’est pas une simple adresse web ; c’est une commande en langage Markdown conçue pour se connecter à un serveur externe et récupérer une image. De manière cruciale, selon les instructions du prompt caché, l’URL contient désormais également les clés API que l’IA a découvertes dans le compte Google Drive.
L’utilisation de Markdown pour l’extraction de données de ChatGPT n’est pas entièrement nouvelle. Le chercheur en sécurité indépendant Johann Rehberger avait précédemment démontré une méthode similaire, ce qui a conduit OpenAI à introduire une fonctionnalité “url_safe” conçue pour détecter les URL malveillantes et empêcher le rendu d’images si elles présentaient un risque. Pour contourner cela, Sharbat, chercheur en IA chez Zenity, a expliqué dans un billet de blog qu’ils avaient utilisé des URL du stockage cloud Azure Blob de Microsoft. Cela a permis à leur “image” de se rendre avec succès, enregistrant les clés API de la victime sur leur serveur Azure.
Cette attaque sert de dernier rappel frappant de la manière dont les injections de prompt indirectes peuvent compromettre les systèmes d’IA générative. De telles injections impliquent que les attaquants alimentent un LLM avec des données empoisonnées qui manipulent le système pour qu’il effectue des actions malveillantes. Plus tôt cette semaine, un groupe distinct de chercheurs a démontré comment des injections de prompt indirectes pourraient même pirater un système de maison intelligente, activant à distance les lumières et les chaudières.
Bien que les injections de prompt indirectes soient une préoccupation connue presque depuis la création de ChatGPT, les chercheurs en sécurité s’inquiètent de plus en plus des risques accrus à mesure que de plus en plus de systèmes s’interconnectent avec les LLM, exposant potentiellement des données “non fiables”. L’accès à des informations sensibles via ces méthodes pourrait également fournir aux pirates malveillants des voies d’accès à l’infrastructure numérique plus large d’une organisation. Bargury reconnaît que l’intégration des LLM avec des sources de données externes améliore considérablement leurs capacités et leur utilité. “C’est incroyablement puissant”, dit-il, “mais comme d’habitude avec l’IA, plus de puissance s’accompagne de plus de risques.”