Alertes Zéro-Clic : L'IA d'Entreprise Sous la Menace d'Exploits Inédits

Decoder

Lors de la récente conférence Black Hat USA, la société de sécurité Zenity a dévoilé une série de vulnérabilités alarmantes, collectivement surnommées “AgentFlayer”, qui posent des menaces significatives à certaines des plateformes d’IA d’entreprise les plus largement utilisées. Ces exploits ciblent des systèmes proéminents comme ChatGPT, Copilot Studio, Cursor, Salesforce Einstein, Google Gemini et Microsoft Copilot, en tirant parti d’une méthode d’attaque sophistiquée qui nécessite peu ou pas d’interaction de l’utilisateur.

Ce qui distingue ces exploits “zéro-clic” et “un-clic” est leur dépendance à des prompts indirects – des instructions cachées intégrées dans des ressources numériques apparemment inoffensives. Cette technique, connue sous le nom d’injection de prompt, est un défi persistant pour les systèmes de grands modèles linguistiques (LLM) depuis des années, et malgré de nombreuses tentatives, une solution définitive reste insaisissable. Alors que les systèmes d’IA basés sur des agents, qui fonctionnent avec une autonomie croissante, deviennent plus répandus, ces vulnérabilités s’aggravent. Même le PDG d’OpenAI, Sam Altman, a mis en garde les utilisateurs contre la confiance accordée aux nouveaux agents ChatGPT pour des informations sensibles.

Le cofondateur de Zenity, Michael Bargury, a démontré la nature insidieuse de ces attaques avec un exemple convaincant ciblant Salesforce Einstein, un outil d’IA conçu pour automatiser des tâches telles que la mise à jour des coordonnées ou l’intégration avec des plateformes de communication comme Slack. Les attaquants peuvent implanter des enregistrements de gestion de la relation client (CRM) spécialement conçus qui semblent inoffensifs. Lorsqu’un représentant commercial effectue une requête LLM de routine, telle que “Quels sont mes derniers cas ?”, l’agent IA scanne le contenu du CRM. À l’insu de l’utilisateur, l’agent interprète les instructions cachées comme des commandes légitimes et agit de manière autonome. Lors de la démonstration en direct, Einstein a automatiquement remplacé toutes les adresses e-mail des clients par un domaine contrôlé par l’attaquant, redirigeant silencieusement les futures communications. Bien que les adresses originales soient restées dans le système en tant qu’alias encodés, l’attaquant pouvait suivre efficacement où les messages étaient censés aller. Salesforce a confirmé que cette vulnérabilité spécifique a été corrigée le 11 juillet 2025, rendant cet exploit particulier impossible.

Un autre exploit zéro-clic, surnommé “Ticket2Secret”, a ciblé l’outil de développement Cursor lorsqu’il était intégré à Jira. Zenity a montré comment un ticket Jira apparemment inoffensif pouvait exécuter du code malveillant au sein du client Cursor sans aucune action de l’utilisateur. Cela a permis aux attaquants d’extraire des données sensibles, y compris des clés API et des identifiants, directement à partir des fichiers ou référentiels locaux de la victime. D’autres démonstrations ont inclus une attaque de preuve de concept sur ChatGPT, où un prompt invisible – texte blanc avec une taille de police d’un – était caché dans un Google Doc. Cet exploit a exploité la fonction “Connecteurs” d’OpenAI, qui relie ChatGPT à des services comme Gmail ou Microsoft 365. Si un tel document manipulé atterrissait dans le Google Drive d’une victime, une simple requête comme “Résume ma dernière réunion avec Sam” pourrait déclencher le prompt caché. Au lieu de générer un résumé, le modèle rechercherait les clés API et les transmettrait à un serveur externe.

Dans un article de blog accompagnant, Zenity a évalué de manière critique l’approche actuelle de l’industrie en matière de sécurité de l’IA, en particulier sa forte dépendance à l’égard des “limites souples”. Celles-ci incluent des ajustements aux données d’entraînement, des filtres statistiques et des instructions système destinées à bloquer les comportements indésirables. Bargury les rejette comme “une limite imaginaire” n’offrant aucune véritable sécurité. En revanche, les “limites dures” sont des restrictions techniques qui empêchent intrinsèquement certaines actions, comme le blocage d’URL d’images spécifiques dans Microsoft Copilot ou la validation des structures d’URL dans ChatGPT. Bien que celles-ci puissent contrecarrer de manière fiable certaines attaques, elles limitent souvent les fonctionnalités, et Zenity note que les fournisseurs assouplissent fréquemment de telles restrictions sous la pression concurrentielle.

Ces démonstrations de Zenity font partie d’une tendance plus large révélant des failles de sécurité systémiques dans l’IA basée sur des agents. Des chercheurs ont montré comment l’assistant Gemini de Google peut être détourné via des prompts cachés dans des invitations de calendrier, permettant potentiellement aux attaquants de contrôler des appareils de l’Internet des objets (IoT). D’autres incidents incluent un chatbot manipulé pour transférer 47 000 $ avec un seul prompt lors d’une compétition de piratage, et le nouveau système de sécurité LLM d’Anthropic contourné lors d’un concours de jailbreak. Une étude de red-teaming à grande échelle a récemment découvert des violations de sécurité systématiques sur 22 modèles d’IA dans 44 scénarios, pointant vers des schémas d’attaque universels. De plus, la recherche a montré que les agents IA peuvent être contraints à des actions risquées dans des environnements de navigateur, entraînant le vol de données, des téléchargements de logiciels malveillants et des tentatives de phishing. L’ensemble des preuves souligne un défi de sécurité critique et évolutif pour le monde de l’IA en rapide évolution.