Vishing Deepfake : Le Clonage Vocal IA, Moteur d'Arnaques Indétectables

Arstechnica

Les appels frauduleux utilisant l’intelligence artificielle pour cloner des voix familières sont devenus une menace omniprésente. De plus en plus, les victimes signalent recevoir des appels qui ressemblent exactement à un petit-enfant, un PDG ou un collègue de longue date, souvent pour annoncer une crise urgente qui exige une action immédiate – qu’il s’agisse de virer de l’argent, de divulguer des identifiants de connexion sensibles ou de naviguer vers un site web malveillant. Cette forme sophistiquée d’hameçonnage vocal, ou “vishing”, exploite la puissance de la technologie deepfake pour abuser de la confiance et de l’urgence.

Des chercheurs en sécurité et des agences gouvernementales ont émis des avertissements concernant cette menace croissante depuis plusieurs années. En 2023, la Cybersecurity and Infrastructure Security Agency (CISA) a noté une augmentation “exponentielle” des menaces de deepfake et d’autres médias synthétiques. Plus récemment, la division de sécurité Mandiant de Google a signalé que ces attaques sont exécutées avec une “précision troublante”, élaborant des stratagèmes de phishing bien plus réalistes et convaincants que jamais.

La firme de sécurité Group-IB a récemment détaillé les étapes fondamentales impliquées dans l’exécution de ces attaques de vishing deepfake, soulignant leur facilité de réplication à grande échelle et les défis significatifs qu’elles posent pour la détection et la défense. Le processus commence généralement par la collecte d’échantillons vocaux de la cible d’usurpation d’identité. Remarquablement, des échantillons aussi brefs que trois secondes, provenant de vidéos publiques, de réunions en ligne ou d’appels vocaux précédents, peuvent suffire. Ces échantillons sont ensuite introduits dans des moteurs de synthèse vocale basés sur l’IA, tels que Tacotron 2 de Google, Vall-E de Microsoft, ou des services commerciaux comme ElevenLabs et Resemble AI. Ces moteurs puissants permettent aux attaquants d’utiliser une interface texte-parole, générant des mots choisis par l’utilisateur avec le ton de voix exact et les tics conversationnels de la personne imitée. Bien que la plupart de ces services interdisent l’utilisation malveillante des deepfakes, une enquête de Consumer Reports en mars a révélé que leurs protections peuvent souvent être contournées avec un effort minimal.

Une étape facultative, mais courante, implique l’usurpation du numéro de téléphone de la personne ou de l’organisation imitée – une technique utilisée depuis des décennies pour renforcer la crédibilité. Les attaquants initient ensuite l’appel frauduleux. Dans certains cas, la voix clonée délivre un message pré-écrit. Cependant, des attaques plus sophistiquées impliquent la génération en temps réel de la parole falsifiée via un logiciel de masquage ou de transformation vocale. Ces interactions en temps réel sont significativement plus convaincantes, car elles permettent à l’attaquant de répondre dynamiquement à toute question ou scepticisme du destinataire, rendant la tromperie remarquablement difficile à discerner. Bien que l’usurpation d’identité en temps réel soit encore quelque peu limitée dans le vishing deepfake généralisé, Group-IB anticipe qu’elle deviendra beaucoup plus courante dans un avenir proche, poussée par les avancées en matière de vitesse de traitement et d’efficacité des modèles. Dans les deux scénarios, l’attaquant utilise la voix fabriquée pour établir un prétexte convaincant afin que le destinataire prenne des mesures immédiates, comme un petit-enfant ayant besoin d’une caution, un PDG exigeant un virement urgent pour une dépense en retard, ou un professionnel de l’informatique instruisant un employé de réinitialiser un mot de passe après une prétendue violation de données. L’objectif final est de collecter de l’argent, des identifiants volés ou d’autres actifs, et une fois l’action demandée effectuée, elle est souvent irréversible.

L’efficacité alarmante de ces attaques a été soulignée lors d’un exercice simulé de “red team” mené par l’équipe de sécurité de Mandiant, conçu pour tester les défenses et former le personnel. Les “red teamers” ont recueilli des échantillons vocaux publiquement disponibles d’un cadre de l’organisation ciblée, puis ont utilisé d’autres informations accessibles au public pour identifier les employés qui relevaient de cette personne. Pour rendre l’appel encore plus crédible, ils ont exploité une panne réelle d’un service VPN comme prétexte urgent. Lors de l’attaque simulée, la victime, faisant confiance à la voix familière, a contourné les invites de sécurité de Microsoft Edge et de Windows Defender SmartScreen, téléchargeant et exécutant sans le savoir une charge utile malveillante pré-préparée sur sa station de travail. Mandiant a conclu que la détonation réussie de cette charge utile “a démontré la facilité alarmante avec laquelle l’usurpation de voix par IA peut faciliter l’atteinte à une organisation”.

Heureusement, de simples précautions peuvent réduire considérablement le risque de devenir victime de telles escroqueries. Une stratégie efficace consiste pour les parties à convenir d’un mot ou d’une phrase secrète choisi au hasard que l’appelant doit fournir avant que le destinataire ne se conforme à toute demande. Une autre étape cruciale consiste à mettre fin à l’appel et à rappeler la personne de manière indépendante en utilisant un numéro connu et vérifié. Idéalement, les deux précautions devraient être suivies. Cependant, ces mesures de protection reposent sur la capacité du destinataire à rester calme et alerte, un défi significatif lorsqu’il est confronté à une crise apparemment légitime et urgente. Cela devient encore plus difficile lorsque le destinataire est fatigué, stressé ou autrement pas au mieux de sa forme. Pour ces raisons, les attaques de vishing – qu’elles soient améliorées par l’IA ou non – sont susceptibles de rester une menace persistante.