数据投毒:AI的隐秘威胁与应对之道

Fastcompany

想象一个繁忙的火车站,其运营由一个先进的AI系统监督。摄像头一丝不苟地监控着每一个细节,从站台的清洁度到停靠区的占用情况,并将关键信息反馈给AI。反过来,这个系统会向进站列车发出信号,指示它们何时可以安全进入。这样一个AI的效能完全取决于其学习数据的质量;准确的输入确保了无缝的服务。然而,恶意行为者可能通过篡改训练数据——无论是用于构建AI的初始数据集,还是其为自我改进而持续收集的数据——来故意干扰这个系统。

这种干扰被称为数据投毒,它涉及故意将错误或误导性信息输入自动化系统。随着时间的推移,AI开始学习不正确的模式,导致它基于有缺陷的数据做出决策,从而可能产生危险的后果。以火车站场景为例:攻击者可能会使用红色激光欺骗摄像头,使其错误地将停靠区标记为“已占用”,因为激光类似于火车的刹车灯。如果这种情况反复发生,AI最终可能会将这些虚假信号解释为有效信号,错误地认为所有轨道都已满,从而延误进站列车。在现实世界中,影响火车轨道状态的数据投毒攻击甚至可能导致致命后果。作为专注于机器学习的计算机科学家,我们积极研究防御这些阴险攻击的方法。

尽管物理基础设施中的数据投毒仍然罕见,但它对在线系统,特别是那些基于大量社交媒体和网络内容训练的大型语言模型,构成了日益增长的重大担忧。计算机科学领域的一个臭名昭著的例子是微软在2016年推出的Tay聊天机器人。在其公开亮相的数小时内,恶意在线用户用不当评论淹没了这个机器人。Tay很快就开始鹦鹉学舌般地重复这些冒犯性词语,这惊动了数百万人,迫使微软在24小时内禁用该工具并公开道歉。Tay模型迅速被腐化,这 starkly 揭示了人工智能与真正人类智能之间的巨大鸿沟,强调了数据投毒如何彻底偏离一项技术的预期目的。

完全阻止数据投毒可能是不可能的,但常识性措施可以显著降低风险。这些措施包括对数据处理量设定严格限制,并根据全面的检查清单严格审查数据输入,以保持对训练过程的严格控制。至关重要的是,旨在在投毒攻击获得显著影响之前检测它们的机制对于最大程度地减少其影响至关重要。

在佛罗里达国际大学的相互依存网络可持续性、优化和学习(SOLID)实验室,我们的研究重点是去中心化方法,以增强针对数据投毒的防御。一种有前景的方法是联邦学习,它使AI模型能够从分散的数据源中学习,而无需将原始数据收集到单一的集中位置。与集中式系统(其呈现单点故障)不同,去中心化系统本质上对有针对性的攻击更具弹性。联邦学习提供了一层宝贵的保护,因为来自一个设备的投毒数据不会立即破坏整个模型。然而,如果用于聚合这些去中心化数据源的过程受到损害,仍然可能发生损害。

这就是区块链技术——一种用于记录交易和跟踪资产的共享的、不可更改的数字账本——发挥作用的地方。区块链提供了关于数据和AI模型更新如何共享和验证的安全透明记录。通过利用自动化共识机制,受区块链保护训练的AI系统可以更可靠地验证更新,帮助识别可能在数据投毒传播之前发出信号的异常。此外,区块链的时间戳结构允许从业者将投毒输入追溯到其起源,从而简化损害逆转并加强未来的防御。它们的互操作性还意味着,如果一个网络检测到投毒数据模式,它可以提醒其他网络。

我们的SOLID实验室团队开发了一种新工具,它结合了联邦学习和区块链,作为对抗数据投毒的强大防御。其他研究人员也正在贡献解决方案,从在数据到达训练过程之前对其进行审查的预筛选过滤器,到训练机器学习系统对潜在的网络攻击异常敏感。最终,依赖现实世界数据的AI系统将始终具有固有的可操纵性脆弱性,无论是通过红色激光笔还是误导性的社交媒体内容。这种威胁无疑是真实存在的。采用联邦学习和区块链等先进防御工具,可以帮助研究人员和开发人员构建更具弹性、更负责任的AI系统,这些系统能够检测欺骗并提醒管理员进行干预。