Deepfake-Vishing: KI-Stimmenklonen befeuert schwer erkennbare Betrugsmaschen

Arstechnica

Betrügerische Anrufe, die künstliche Intelligenz zum Klonen vertrauter Stimmen verwenden, sind zu einer allgegenwärtigen Bedrohung geworden. Zunehmend berichten Opfer von Anrufen, die genau wie ein Enkelkind, ein CEO oder ein langjähriger Kollege klingen und oft eine dringende Krise vermitteln, die sofortiges Handeln erfordert – sei es Geld überweisen, sensible Anmeldeinformationen preisgeben oder zu einer bösartigen Website navigieren. Diese ausgeklügelte Form des Voice-Phishings oder „Vishing“ nutzt die Kraft der Deepfake-Technologie, um Vertrauen und Dringlichkeit auszunutzen.

Sicherheitsforscher und Regierungsbehörden warnen seit mehreren Jahren vor dieser eskalierenden Bedrohung. Im Jahr 2023 stellte die Cybersecurity and Infrastructure Security Agency (CISA) einen „exponentiellen“ Anstieg von Deepfake- und anderen synthetischen Medienbedrohungen fest. Kürzlich berichtete die Mandiant-Sicherheitsabteilung von Google, dass diese Angriffe mit „unheimlicher Präzision“ ausgeführt werden und weitaus realistischere und überzeugendere Phishing-Schemata als je zuvor erstellen.

Das Sicherheitsunternehmen Group-IB hat kürzlich die grundlegenden Phasen detailliert beschrieben, die bei der Ausführung dieser Deepfake-Vishing-Angriffe involviert sind, und dabei deren einfache Replikation in großem Maßstab sowie die erheblichen Herausforderungen hervorgehoben, die sie für Erkennung und Verteidigung darstellen. Der Prozess beginnt typischerweise mit der Sammlung von Stimmproben des beabsichtigten Imitationsziels. Bemerkenswerterweise können bereits drei Sekunden kurze Proben, die aus öffentlichen Videos, Online-Meetings oder früheren Sprachanrufen stammen, ausreichen. Diese Proben werden dann in KI-basierte Sprachsynthese-Engines eingespeist, wie Googles Tacotron 2, Microsofts Vall-E oder kommerzielle Dienste wie ElevenLabs und Resemble AI. Diese leistungsstarken Engines ermöglichen es Angreifern, eine Text-zu-Sprache-Schnittstelle zu verwenden, um vom Benutzer gewählte Wörter im exakten Stimmton und mit den Gesprächs-Tics der imitierten Person zu generieren. Während die meisten dieser Dienste den bösartigen Einsatz von Deepfakes verbieten, zeigte eine Untersuchung von Consumer Reports im März, dass ihre Schutzmaßnahmen oft mit minimalem Aufwand umgangen werden können.

Ein optionaler, aber gängiger Schritt ist das Spoofing der Telefonnummer der imitierten Person oder Organisation – eine Technik, die seit Jahrzehnten verwendet wird, um die Glaubwürdigkeit zu erhöhen. Angreifer initiieren dann den Betrugsanruf. In einigen Fällen liefert die geklonte Stimme eine vorab geskriptete Nachricht. Komplexere Angriffe beinhalten jedoch die Echtzeitgenerierung der gefälschten Sprache durch Sprachmaskierungs- oder Transformationssoftware. Diese Echtzeit-Interaktionen sind deutlich überzeugender, da sie es dem Angreifer ermöglichen, dynamisch auf Fragen oder Skepsis des Empfängers zu reagieren, was die Täuschung bemerkenswert schwer erkennbar macht. Während die Echtzeit-Imitation bei weit verbreitetem Deepfake-Vishing noch etwas begrenzt ist, erwartet Group-IB, dass sie in naher Zukunft weitaus häufiger werden wird, angetrieben durch Fortschritte bei der Verarbeitungsgeschwindigkeit und Modelleffizienz. In beiden Szenarien nutzt der Angreifer die fabrizierte Stimme, um einen überzeugenden Vorwand zu schaffen, damit der Empfänger sofort Maßnahmen ergreift, wie z.B. ein Enkelkind, das Kautionsgeld benötigt, ein CEO, der eine dringende Überweisung für eine überfällige Ausgabe fordert, oder ein IT-Experte, der einen Mitarbeiter anweist, ein Passwort nach einer angeblichen Datenverletzung zurückzusetzen. Das ultimative Ziel ist es, Bargeld, gestohlene Zugangsdaten oder andere Vermögenswerte zu sammeln, und sobald die angeforderte Aktion ausgeführt wurde, ist sie oft irreversibel.

Die alarmierende Wirksamkeit dieser Angriffe wurde in einer simulierten Red-Team-Übung des Sicherheitsteams von Mandiant unterstrichen, die darauf abzielte, Abwehrmaßnahmen zu testen und Personal zu schulen. Die Red-Teamer sammelten öffentlich verfügbare Stimmproben eines Managers innerhalb der Zielorganisation und nutzten dann andere öffentlich zugängliche Informationen, um Mitarbeiter zu identifizieren, die diesem Manager unterstellt waren. Um den Anruf noch glaubwürdiger zu machen, nutzten sie einen realen Ausfall eines VPN-Dienstes als dringenden Vorwand. Während des simulierten Angriffs umging das Opfer, das der vertrauten Stimme vertraute, Sicherheitsabfragen sowohl von Microsoft Edge als auch von Windows Defender SmartScreen und lud unwissentlich eine vorbereitete bösartige Nutzlast auf seinen Arbeitsplatz herunter und führte sie aus. Mandiant kam zu dem Schluss, dass die erfolgreiche Zündung dieser Nutzlast „die alarmierende Leichtigkeit demonstrierte, mit der KI-Stimmen-Spoofing das Eindringen in eine Organisation erleichtern kann“.

Glücklicherweise können einfache Vorsichtsmaßnahmen das Risiko, Opfer solcher Betrügereien zu werden, erheblich mindern. Eine wirksame Strategie besteht darin, dass die Parteien ein zufällig gewähltes geheimes Wort oder eine Phrase vereinbaren, die der Anrufer angeben muss, bevor der Empfänger einer Anfrage nachkommt. Ein weiterer entscheidender Schritt ist, das Gespräch zu beenden und die Person dann unabhängig über eine bekannte, verifizierte Nummer zurückzurufen. Idealerweise sollten beide Vorsichtsmaßnahmen befolgt werden. Diese Schutzmaßnahmen setzen jedoch voraus, dass der Empfänger ruhig und wachsam bleibt, was eine erhebliche Herausforderung darstellt, wenn er mit einer scheinbar legitimen und dringenden Krise konfrontiert wird. Dies wird noch schwieriger, wenn der Empfänger müde, gestresst oder anderweitig nicht in Bestform ist. Aus diesen Gründen werden Vishing-Angriffe – ob durch KI verstärkt oder nicht – wahrscheinlich eine anhaltende Bedrohung bleiben.