麻省理工新开源AI工具:单字可骗过AI,也能助其更强
随着大型语言模型日益渗透到我们的日常生活中,对其进行严格测试并确保其可靠性的必要性前所未有地高涨。无论是判断一部电影评论是热情洋溢的赞扬还是尖锐的批评,将一篇新闻故事归类为商业或技术,还是监控在线聊天机器人以防止其提供未经授权的财务建议或医疗错误信息,这些自动化评估现在主要由复杂的算法——即文本分类器——处理。然而,关键问题仍然是:我们如何才能真正确定这些分类的准确性?
麻省理工学院信息与决策系统实验室(LIDS)的一个团队最近公布了一种创新方法,旨在不仅衡量这些分类器的功效,还为提高其精度提供清晰的途径。这款由首席研究科学家Kalyan Veeramachaneni及其学生Lei Xu和Sarah Alnegheimish以及另外两名合作者开发的全新评估和修复软件,现已免费提供下载,为更广泛的AI社区做出了重大贡献。
传统上,测试分类系统涉及创建“合成示例”——即精心制作以模仿已分类句子的句子。例如,研究人员可能会取一个先前被标记为正面评论的句子,然后巧妙地改变一两个词,旨在诱使分类器将其错误地解读为负面,即使核心含义保持不变。同样,一个被认为是错误信息的句子可能会被巧妙地修改,从而被错误地归类为准确。这些欺骗性示例,被称为对抗性示例,暴露了分类器中的漏洞。虽然已经尝试了各种方法来揭示这些弱点,但现有技术往往力不从心,错过了许多关键实例。
对这种评估工具的需求正在增长,特别是在公司越来越多地部署聊天机器人用于各种目的,并努力确保其响应适当且安全的情况下。例如,银行可能会使用聊天机器人处理常规客户咨询,如查询账户余额,但必须严格确保它绝不会无意中提供财务建议,这可能会使该机构承担责任。正如Veeramachaneni所解释的:“在向最终用户显示聊天机器人的响应之前,他们希望使用文本分类器来检测它是否正在提供财务建议。” 这就需要对分类器本身进行强大的测试。
麻省理工学院团队的方法利用了它旨在改进的技术:大型语言模型(LLMs)。当创建一个对抗性示例——一个略微修改过但保留原始含义并能欺骗分类器的句子时——会使用另一个LLM来确认语义等效性。如果LLM验证两个句子传达相同含义,但分类器却赋予它们不同的标签,那么,正如Veeramachaneni所指出的,“那就是一个对抗性句子——它可以欺骗分类器。” 有趣的是,研究人员发现,大多数成功的对抗性攻击只涉及一个词的改变,这种细微之处常常被那些使用LLM生成替代句子的人所忽视。
通过对数千个示例的广泛分析(同样利用了LLM),该团队发现某些特定词语在改变分类方面具有不成比例的影响力。这一关键见解使得测试分类器准确性的方法更具针对性,侧重于一小部分始终产生最显著差异的词语。Lei Xu,一位最近从LIDS毕业的博士生,其博士论文对这项分析做出了重要贡献,她“使用了许多有趣的估计技术来找出哪些是最强大的词语,它们可以改变整体分类,可以欺骗分类器,”Veeramachaneni详细解释道。这种方法大大简化了生成对抗性示例的计算负担。
在此基础上,该系统进一步利用LLM识别与这些“强大”术语密切相关的词语,并根据它们对分类结果的影响创建全面的排名。一旦识别出来,这些对抗性句子就可以用于重新训练分类器,显著增强其抵御此类错误的能力。
提高分类器准确性的影响远远超出了简单的新闻文章或电影评论分类。这些系统越来越多地部署在高风险环境中,其中错误分类可能导致严重后果。这包括防止敏感医疗、金融或安全信息的无意泄露,指导生物医学等领域的关键研究,或识别和阻止仇恨言论和错误信息。
作为这项研究的直接成果,该团队引入了一个新的度量标准,名为“p”,它量化了分类器抵御单词攻击的弹性。认识到减轻此类错误分类的关键重要性,研究团队已将其工具公开。该软件包包含两个关键组件:SP-Attack,用于生成对抗性句子以测试各种应用中的分类器;以及SP-Defense,旨在通过使用这些对抗性示例进行模型再训练来提高分类器鲁棒性。
在一些测试中,竞争方法允许对抗性攻击达到66%的成功率,而麻省理工学院团队的系统几乎将其成功率减半,降至33.7%。虽然其他应用只显示出2%的适度改进,但考虑到这些系统每天处理数十亿次交互,即使是看似微小的百分比增益也具有巨大意义,因为这可能会影响数百万笔交易。该团队的发现于7月7日发表在《专家系统》(Expert Systems)期刊上,论文作者包括LIDS的Xu、Veeramachaneni和Alnegheimish,以及法国马赛IRD的Laure Berti-Equille和西班牙胡安卡洛斯国王大学的Alfredo Cuesta-Infante。