深度无知:EleutherAI数据过滤铸就开放权重LLM防篡改AI安全

Eleuther

当前,大型语言模型(LLM)的安全保障往往不足,特别是对于提供无与伦比透明度和可访问性的开放权重模型。这些内部运作完全暴露的模型带来了独特的安全挑战,因为传统的训练后干预措施很容易被规避。EleutherAI在其论文《深度无知:过滤预训练数据在开放权重LLM中构建防篡改保障》中详细阐述了一项根本性转变:与其教模型什么“不该”说,不如从一开始就阻止它们学习危险知识。

目前主流的LLM安全保障主要依赖于事后抑制技术,例如拒绝训练或输入过滤器,旨在防止模型生成不良内容。然而,无数“越狱”攻击表明,这些干预措施本质上是脆弱的。它们的有效性进一步局限于用户仅通过开发者监控的API与模型交互的场景。对于可以自由下载、修改和微调的开放权重模型,这些事后添加的安全协议即使是无意中也极易被绕过。这种脆弱性凸显了对更强大、内置安全机制的迫切需求。

EleutherAI的研究倡导一种根本不同的方法,一种与开放AI社区精神相契合的方法。其核心直觉很简单:如果要防止危险能力,第一步必须是从模型的预训练数据中消除相关内容。例如,一个完全不知道如何构建危险设备的模型,无论如何提示,都不太可能在这类任务中提供帮助。尽管一些商业提供商暗示出于安全目的进行数据过滤,但均未详细说明其方法或量化其对模型能力的因果影响。EleutherAI的“深度无知”论文提供了迄今为止对这些问题最全面的考察。

该研究侧重于预防“生物风险”知识,使用了WMDP-生物基准——一个包含约1200个与生物危害先决条件相关的多项选择题的集合。为此,EleutherAI开发了一个可扩展的多阶段过滤管道,能够以最小的计算开销(总处理量增加不到1%)筛选超过4亿份文档。该管道首先采用了一个包含约6000个高度特定于生物风险讨论的词语的黑名单。然后,包含两个或更多此类词语的文档会被升级到机器学习分类器ModernBERT-Large进行进一步审查。该团队从零开始,在5500亿个标记上训练了多个69亿参数的模型,并将一个在未过滤数据上训练的基线模型与在过滤数据集上训练的模型进行了比较。这种严谨的设置使得能够就数据过滤的影响做出精确的因果声明。

结果令人信服。EleutherAI发现,其最有效的过滤设置可以将模型在WMDP-生物基准上的表现降低到接近随机猜测的水平,关键是同时不会显著降低其在MMLU、PIQA、Lambada和Hellaswag等通用知识基准上的表现。这表明数据过滤可以是一种高度有针对性的干预措施,在不牺牲广泛性能的情况下阻止特定的不良知识。令人惊讶的是,即使通过黑名单移除了高达10%的训练数据,对大多数基准测试的负面影响也微乎其微,这表明模型可以在保留核心能力的同时承受大量的良性数据移除。

此外,研究表明数据过滤赋予了显著的防篡改性。即使过滤后的模型在3亿个由专家标注的生物风险论文(WMDP考试的原始资料)上进行了有意微调,它们在生物风险基准上的表现仍明显低于未过滤的基线模型。这与“电路中断”等其他安全方法形成鲜明对比,后者被证明脆弱且即使轻微篡改也容易被绕过。过滤后的模型也抵制了“良性微调”(例如,在WikiText等通用文本上),而这种微调通常会重新启用传统安全保障模型中的不安全行为。这突显了当前封闭权重安全保障在开放权重环境下固有的脆弱性。

然而,该研究也识别出一个关键局限性:如果不良信息直接在提示中提供(类似于检索增强生成(RAG)的场景),预训练数据过滤并不能阻止模型获取或利用该信息。在“开卷”实验中,当提示中提供了生物风险摘要时,过滤后的模型尽管内部生物风险知识有限,但其表现仍明显优于仅依赖其学习参数的“闭卷”场景。虽然它们的表现未能完全达到基线水平,但已接近,这表明如果必要信息明确呈现给模型,它们仍然可以对敏感主题进行推理。

这一发现强调了“纵深防御”策略的必要性,即预训练数据过滤与其他干预措施相结合,以构建全面的风险管理。矛盾的是,开放权重环境下的这一“局限性”对封闭权重模型可能是一个有价值的特性。提供商可以选择性地允许受信任的用户访问双重用途知识数据库,从而实现亲社会应用,同时限制不受信任用户的访问。

EleutherAI的工作填补了开源AI安全研究的一个关键空白。历史上,LLM预训练的巨大成本和精力阻碍了学术界和非营利性研究人员,而私营公司则因竞争担忧和法律风险而不愿分享预训练细节。通过公开研究和分享其预训练堆栈,EleutherAI旨在鼓励更多研究人员探索这些基本问题,相信在LLM预训练领域还有其他概念简单但影响深远的干预措施等待发现。