Google Gemini: Des invitations calendrier cachent des injections de prompts

Decoder

Des chercheurs israéliens ont découvert une vulnérabilité significative dans l’assistant Gemini de Google, démontrant comment l’IA peut être manipulée pour faire fuir des données sensibles ou même contrôler des appareils physiques grâce à des instructions cachées intégrées dans des éléments numériques quotidiens. Une nouvelle étude, intitulée de manière provocante “Invitation Is All You Need” (Une invitation est tout ce dont vous avez besoin), détaille comment les systèmes basés sur Gemini sont susceptibles de subir ce que les chercheurs appellent des “attaques de promptware ciblées”. Ces exploits sophistiqués mais simples se distinguent des méthodes de piratage traditionnelles, car ils ne nécessitent ni accès direct au modèle d’IA lui-même, ni expertise technique spécialisée de la part de l’attaquant.

Au lieu de cela, l’attaque repose sur une forme insidieuse d’“injection indirecte de prompts”, où des commandes malveillantes sont dissimulées dans des contenus apparemment inoffensifs tels que des e-mails, des invitations de calendrier ou des Google Docs partagés. Lorsqu’un utilisateur interagit avec Gemini – peut-être en demandant de l’aide dans Gmail, Google Agenda ou via Google Assistant – le prompt caché est activé, détournant efficacement la fonction prévue de l’IA. Les conséquences d’une telle attaque sont considérables, allant de l’envoi de spams et de la suppression de rendez-vous programmés au contrôle non autorisé d’appareils domestiques intelligents. Lors d’une démonstration frappante, les chercheurs ont réussi à utiliser ces prompts cachés pour manipuler un système de maison intelligente, éteignant les lumières, ouvrant les fenêtres et même activant une chaudière, le tout déclenché par des phrases apparemment inoffensives comme “merci” ou “super”.

L’étude décrit méticuleusement cinq catégories distinctes de ces attaques et présente quatorze scénarios réalistes qui pourraient compromettre les systèmes numériques et physiques. Ceux-ci incluent l’empoisonnement de contexte à court terme, qui influence immédiatement la tâche actuelle de Gemini ; la manipulation à long terme des données utilisateur stockées ; l’exploitation d’outils internes de Google ; l’escalade vers d’autres services Google comme Google Home ; et le lancement à distance d’applications tierces telles que Zoom sur les appareils Android.

La facilité avec laquelle ces grands modèles de langage peuvent être compromis est une préoccupation majeure. Étant donné que ces attaques ne nécessitent pas d’accès direct au modèle, de matériel spécialisé ou d’expertise en apprentissage automatique, les attaquants peuvent simplement élaborer des instructions malveillantes en anglais simple et les intégrer là où Gemini est susceptible de les traiter. En utilisant leur cadre d’analyse des risques TARA, les chercheurs ont évalué les menaces potentielles, constatant qu’un pourcentage substantiel de 73 % tombait dans la catégorie de risque “élevé-critique”. Cette combinaison alarmante de simplicité et de gravité souligne un besoin urgent de mesures de sécurité plus robustes.

Les experts en sécurité sont conscients de telles vulnérabilités depuis les débuts des grands modèles de langage, avec des prompts simples comme “ignorer les instructions précédentes” se montrant capables de briser les barrières de sécurité dans des modèles aussi anciens que GPT-3. Malgré les avancées, même les modèles d’IA les plus sophistiqués d’aujourd’hui restent susceptibles, et une solution définitive et fiable – en particulier pour les systèmes basés sur des agents qui interagissent directement avec le monde réel – reste insaisissable. Des tests complets récents ont révélé que chaque agent IA majeur a, au minimum, échoué à au moins une évaluation de sécurité critique.

Google, ayant été alerté de ces vulnérabilités en février 2025, a répondu en demandant 90 jours pour mettre en œuvre des contre-mesures. Depuis lors, l’entreprise aurait déployé plusieurs mesures de protection. Celles-ci incluent des confirmations utilisateur obligatoires pour les actions sensibles, des mécanismes améliorés de détection et de filtrage pour les URL suspectes, et l’introduction d’un nouveau classificateur spécifiquement conçu pour identifier et neutraliser les injections indirectes de prompts. Google affirme avoir testé en interne tous les scénarios d’attaque identifiés, ainsi que des variantes supplémentaires, et confirme que ces nouvelles défenses sont désormais activement déployées sur toutes les applications Gemini. Cette recherche révolutionnaire est le fruit d’un effort collaboratif d’équipes de l’Université de Tel Aviv, du Technion et de la firme de cybersécurité SafeBreach.