深度伪造语音诈骗:AI克隆声音,骗局难防
利用人工智能克隆熟悉声音的诈骗电话已成为一种普遍存在的威胁。越来越多的受害者报告称,他们接到的电话听起来与孙辈、CEO或长期同事的声音一模一样,通常会传递一个需要立即采取行动的紧急危机——无论是汇款、泄露敏感登录凭据,还是导航到恶意网站。这种复杂的语音网络钓鱼,或称“vishing”,利用深度伪造技术的力量来利用信任和紧迫性。
安全研究人员和政府机构多年来一直在警告这种不断升级的威胁。2023年,美国网络安全和基础设施安全局(CISA)指出,深度伪造和其他合成媒体威胁呈“指数级”增长。最近,谷歌的Mandiant安全部门报告称,这些攻击以“惊人的精确度”执行,制造出比以往任何时候都更真实、更具说服力的网络钓鱼方案。
安全公司Group-IB最近详细介绍了执行这些深度伪造语音钓鱼攻击所涉及的基本阶段,强调了它们大规模复制的简易性以及它们在检测和防御方面带来的重大挑战。这个过程通常始于收集目标模仿对象的语音样本。值得注意的是,从公共视频、在线会议或之前的语音通话中获取的短至三秒的样本就足以使用。然后,这些样本被输入到基于AI的语音合成引擎中,例如谷歌的Tacotron 2、微软的Vall-E,或ElevenLabs和Resemble AI等商业服务。这些强大的引擎使攻击者能够使用文本转语音界面,以被模仿者的精确语调和对话习惯生成用户选择的词语。尽管大多数这些服务禁止恶意使用深度伪造,但《消费者报告》在3月的一项调查显示,它们的防护措施通常只需极少的努力即可绕过。
一个可选但常见的步骤是伪造被模仿个人或组织的电话号码——这种技术已使用了几十年以增强可信度。然后攻击者发起诈骗电话。在某些情况下,克隆的声音会传递预先编写好的信息。然而,更复杂的攻击涉及通过语音掩蔽或转换软件实时生成伪造的语音。这些实时互动更具说服力,因为它们允许攻击者动态回应接收者的任何问题或疑虑,从而使欺骗行为难以辨别。虽然实时模仿在广泛的深度伪造语音钓鱼中仍有一定限制,但Group-IB预计,在处理速度和模型效率的进步推动下,它将在不久的将来变得更加普遍。在任何一种情况下,攻击者都利用伪造的声音为接收者建立一个令人信服的借口,使其立即采取行动,例如孙辈需要保释金、CEO要求紧急电汇支付逾期费用,或IT专业人员指示员工在所谓的数据泄露后重置密码。最终目标是收集现金、被盗凭据或其他资产,一旦采取了所要求的行动,通常是不可逆转的。
Mandiant安全团队进行的一项模拟红队演习强调了这些攻击的惊人有效性,该演习旨在测试防御和培训人员。红队成员收集了目标组织内一名高管公开可用的语音样本,然后利用其他公开信息识别向该高管汇报的员工。为了使电话更具可信度,他们利用了VPN服务的一次真实世界中断作为紧急借口。在模拟攻击中,受害者相信了熟悉的声音,绕过了Microsoft Edge和Windows Defender SmartScreen的安全提示,不知不觉地将预先准备好的恶意负载下载并执行到其工作站上。Mandiant得出结论,该负载的成功引爆“展示了AI语音欺骗能够多么令人震惊地轻易促成组织的泄露”。
幸运的是,简单的预防措施可以显著降低成为此类诈骗受害者的风险。一个有效的策略是,双方约定一个随机选择的秘密词或短语,呼叫者必须提供该词或短语,接收者才能遵从任何请求。另一个关键步骤是结束通话,然后使用已知且验证过的号码独立回拨给对方。理想情况下,应同时遵循这两种预防措施。然而,这些保护措施依赖于接收者保持冷静和警惕,这在面对看似合法且紧急的危机时是一个重大挑战。当接收者疲惫、压力大或状态不佳时,这会变得更加困难。由于这些原因,语音钓鱼攻击——无论是否通过AI增强——都可能仍然是一种持续的威胁。