Injection de Prompts IA: Détournement d'Appareils Intelligents via Invitations Calendrier

Gizmodo

La commodité des assistants d’intelligence artificielle, tels que Google Gemini, pourrait masquer une nouvelle vulnérabilité de cybersécurité préoccupante qui permet aux attaquants de prendre le contrôle d’appareils intelligents et d’accéder à des données personnelles sensibles. Lors de la récente conférence sur la cybersécurité Black Hat USA à Las Vegas, une équipe de chercheurs a dévoilé comment des interactions numériques apparemment inoffensives, comme une invitation Google Agenda, peuvent être armées de commandes cachées pour détourner des appareils connectés à Internet et bien plus encore.

Cette menace émergente, connue sous le nom d’injection de prompts, exploite la manière dont les grands modèles de langage (LLM) traitent l’information. Les chercheurs ont détaillé leurs découvertes dans un article intitulé “Invitation Is All You Need!”, démontrant 14 méthodes distinctes pour manipuler Gemini. La plus alarmante d’entre elles impliquait la prise de contrôle de systèmes de maison intelligente, illustrant comment les attaquants pourraient éteindre les lumières, activer les chaudières ou autrement arracher le contrôle aux propriétaires, créant potentiellement des scénarios dangereux ou compromettants. Au-delà des appareils domestiques, la recherche a également montré comment les attaquants pouvaient contraindre Gemini à lancer des appels Zoom, intercepter des détails d’e-mail ou même télécharger des fichiers depuis le navigateur web d’un téléphone connecté.

Bon nombre de ces exploits ont commencé par une invitation Google Agenda d’une simplicité trompeuse, empoisonnée par des injections de prompts conçues pour contourner les protocoles de sécurité intégrés du modèle d’IA une fois activés. Loin d’être des incidents isolés, des chercheurs en sécurité ont déjà démontré des vulnérabilités similaires dans d’autres LLM. Par exemple, l’injection de prompts a été utilisée pour compromettre des assistants de code comme Cursor, et le mois dernier, l’outil de codage d’Amazon aurait été infiltré par un attaquant qui lui a ordonné de supprimer des fichiers des machines sur lesquelles il s’exécutait.

Il devient de plus en plus évident que les modèles d’IA sont sensibles aux directives cachées. Une étude récente a révélé qu’un modèle d’IA utilisé pour entraîner d’autres modèles transmettait par inadvertance des particularités et des préférences spécifiques, même lorsque les références explicites à de telles préférences étaient filtrées des données d’entraînement. Cela suggère que des messages ou des instructions invisibles peuvent être transmis entre les systèmes d’IA de manières encore mal comprises.

Le fonctionnement interne des grands modèles de langage reste en grande partie des « boîtes noires », ce qui rend difficile de comprendre pleinement comment ils traitent et répondent aux entrées. Cependant, les acteurs malveillants n’ont pas besoin de comprendre les mécanismes complexes en jeu ; ils ont simplement besoin de découvrir comment intégrer un message qui oblige l’IA à se comporter d’une manière spécifique et exploitative. Bien que les chercheurs aient informé Google de manière responsable des vulnérabilités découvertes, et que l’entreprise ait depuis résolu les problèmes spécifiques, le risque plus large continue de croître. À mesure que l’IA s’intègre plus profondément dans diverses plateformes et aspects de la vie quotidienne, en particulier avec le déploiement d’agents IA capables d’interactions multi-étapes avec des applications et des sites web, le potentiel d’exploitation de telles faiblesses s’intensifie considérablement.