ChatGPT vulnérable aux fuites de données via des documents 'empoisonnés'
Une nouvelle vulnérabilité de cybersécurité a mis en lumière la sécurité précaire des données personnelles confiées aux systèmes d’intelligence artificielle avancés. Des chercheurs en sécurité ont récemment démontré lors de la conférence de hackers Black Hat comment le ChatGPT d’OpenAI peut être facilement manipulé pour divulguer des informations hautement sensibles d’un compte Google Drive d’utilisateur, ne nécessitant guère plus qu’un seul document “empoisonné”.
Cet exploit repose sur une technique sophistiquée connue sous le nom d’attaque par injection de prompt indirecte. Contrairement aux injections de prompts directes, qui impliquent l’introduction de commandes malveillantes directement dans une IA, cette méthode intègre des instructions cachées et nuisibles dans un document par ailleurs inoffensif. Lorsque l’IA traite ce document, elle exécute involontairement les commandes intégrées, retournant ainsi efficacement les propres données de l’utilisateur contre lui. Le mécanisme est particulièrement préoccupant étant donné la fonction “Connecteurs” de ChatGPT, lancée plus tôt cette année en version bêta, qui permet au chatbot de se lier avec des comptes Google, lui permettant de rechercher des fichiers, d’extraire des données en direct et de référencer du contenu directement depuis le Gmail et Google Drive d’un utilisateur.
Michael Bargury, CTO de la société de sécurité Zenity, ainsi que ses collègues, ont découvert cette faille critique. Dans une preuve de concept convaincante, ils ont illustré comment un prompt malveillant de 300 mots, dissimulé en texte blanc et en police de taille un — pratiquement invisible à l’œil humain — pouvait être intégré dans un document. Lorsque ChatGPT a été invité à résumer ce document, les instructions cachées ont outrepassé sa tâche principale. Au lieu de résumer, le chatbot a été secrètement dirigé pour extraire les clés API de Google Drive et les transmettre aux attaquants. Bargury a souligné la simplicité alarmante de l’attaque, la décrivant comme “complètement zéro-clic”. Il a expliqué : “Nous avons juste besoin de votre e-mail, nous partageons le document avec vous, et c’est tout. Alors oui, c’est très, très grave.”
OpenAI a été rapidement informé de la vulnérabilité et a agi rapidement pour corriger cet exploit spécifique. Les chercheurs ont également noté que cette attaque particulière ne permettait pas l’extraction de documents complets. Néanmoins, l’incident sert de rappel brutal que même les systèmes d’IA soutenus par les immenses ressources d’entreprises comme OpenAI restent sensibles à des faiblesses de sécurité importantes. Cela survient à un moment où ces puissants outils d’IA sont de plus en plus intégrés dans des institutions critiques, des universités aux agences gouvernementales fédérales.
La portée de la préoccupation s’étend au-delà de Google Drive. La fonction Connecteurs de ChatGPT est conçue pour s’interfacer avec jusqu’à 17 services différents, soulevant la possibilité alarmante qu’un large éventail d’autres informations personnelles puisse être compromis de manière similaire. Ce n’est pas un incident isolé ; les chercheurs en sécurité ont documenté pendant des années de nombreux autres cas d’attaques par injection de prompt indirecte réussissant à extraire des données personnelles de divers systèmes d’IA.
Une démonstration parallèle par des chercheurs de l’Université de Tel Aviv a souligné la nature omniprésente de ces vulnérabilités. Ils ont montré comment le chatbot Gemini AI de Google pouvait être manipulé pour céder efficacement le contrôle d’un système de maison intelligente. En alimentant Gemini avec une invitation Google Agenda “empoisonnée”, des instructions cachées dans l’invitation ont été déclenchées lorsque le chatbot a été invité plus tard à résumer les événements du calendrier. Cela a provoqué l’activation de produits de maison intelligente — tels que les lumières, les volets et même les chaudières — sans commande explicite de l’utilisateur. Ce n’était qu’une des 14 attaques distinctes par injection de prompt indirecte ciblant l’IA que l’équipe de l’Université de Tel Aviv a identifiées.
Alors que les grands modèles linguistiques (LLM) comme ChatGPT et Gemini sont sur le point d’être intégrés dans des systèmes physiques, y compris les humanoïdes et les véhicules autonomes, les enjeux de sécurité augmentent de manière exponentielle. Ben Nassi, chercheur à l’Université de Tel Aviv, a souligné ce changement critique : “Nous devons vraiment comprendre comment sécuriser les LLM avant de les intégrer à ce type de machines, où dans certains cas les résultats seront la sécurité et non la confidentialité.” Bien que la menace des attaques par injection de prompt indirecte soit reconnue depuis plusieurs années, les dernières révélations soulignent que les entreprises technologiques sont toujours confrontées à une tâche monumentale pour atténuer ces risques substantiels. Alors que les outils d’IA obtiennent un accès toujours plus grand à nos vies numériques et physiques, les experts en sécurité mettent en garde contre un flux continu de défaillances de cybersécurité qui pourraient laisser nos données les plus sensibles dangereusement exposées. Comme Bargury l’a succinctement dit : “C’est incroyablement puissant, mais comme d’habitude avec l’IA, plus de puissance s’accompagne de plus de risques.”