Anthropic 为 Claude 打造多层次 AI 安全策略

Artificialintelligence

Anthropic 公布了其安全策略的详细内容,这是一项多方面的工作,旨在确保其广受欢迎的 AI 模型 Claude 保持有用性,同时积极防止危害的延续。这项宏伟事业的核心是 Anthropic 的“保障团队”(Safeguards team),这是一个由政策专家、数据科学家、工程师和威胁分析师组成的多学科团队。他们的集体专业知识旨在预测和对抗恶意行为者的策略,这反映了一种类似于坚固城堡的多层防御 AI 安全方法,从基础规则设定到持续的威胁检测。

第一道防线是全面的《使用政策》,它是 Claude 合理使用和禁止使用的明确规则手册。这项政策为选举诚信、儿童安全等关键问题,以及在金融和医疗等敏感领域的负责任使用提供了明确指导。为了制定这些准则,“保障团队”采用了一套“统一危害框架”(Unified Harm Framework),这是一种结构化的方法,用于评估在物理、心理、经济和社会层面可能产生的负面影响,而非僵化的评分系统。该框架通过全面权衡风险来指导决策。此外,公司还聘请外部专家进行“政策漏洞测试”(Policy Vulnerability Tests)。这些专家拥有恐怖主义和儿童安全等领域的背景,他们通过提出具有挑战性的查询来严格测试 Claude,以发现潜在的弱点和漏洞。这种积极主动方法的一个显著例子发生在 2024 年美国大选期间,Anthropic 在与战略对话研究所合作后发现 Claude 可能会无意中提供过时的投票信息。作为回应,他们迅速整合了一个横幅,引导用户访问 TurboVote,这是一个可靠的、提供最新非党派选举数据的来源。

将安全性融入 Claude 的工作始于其开发的基础阶段。Anthropic 的“保障团队”与负责训练 AI 的开发人员紧密合作,将关键价值观直接嵌入到模型本身。这种协作决定了 Claude 应该做什么和不应该做什么。战略伙伴关系对这一过程也至关重要;例如,通过与危机支持领域的领导者 ThroughLine 合作,Anthropic 使 Claude 能够以同理心和关怀处理有关心理健康和自我伤害的敏感对话,而不是简单地回避这些话题。这种细致的训练正是 Claude 被编程为拒绝与非法活动、生成恶意代码或创建诈骗相关的请求的原因。

在任何新版 Claude 发布给公众之前,它都会经历一个详尽的评估过程,其中包括三种关键类型的评估。安全评估严格测试 Claude 对既定规则的遵守情况,即使在复杂和长时间的对话中也是如此。对于涉及网络威胁或生物风险的高风险应用,会进行专门的风险评估,这通常与政府和行业伙伴合作进行。最后,会进行偏见评估,以确保公平性,验证 Claude 为所有用户提供可靠和准确的回复,并主动检查是否存在政治倾向或基于性别或种族等因素的偏颇输出。这种密集的测试制度对于确认 Claude 训练的有效性以及在发布前识别是否需要额外保护措施至关重要。

一旦 Claude 投入运行,Anthropic 通过自动化系统和人工监督相结合的方式保持着不懈的警惕。这种实时监控的一个关键组成部分是专门的 Claude 模型,称为“分类器”,它们经过专门训练,用于实时检测政策违规行为。如果分类器标记出问题,它可以触发各种干预措施,从巧妙地引导 Claude 的响应避免生成垃圾邮件等有害内容,到对屡犯者发出警告甚至暂停账户。除了即时反应,团队还会分析更广泛的使用模式。他们利用隐私保护工具来识别新兴趋势,并采用分层摘要等技术来检测大规模滥用,例如协调一致的影响力活动。这包括持续寻找新威胁,涉及深度数据分析和监控可能讨论恶意活动的在线论坛。

Anthropic 承认,确保 AI 安全并非其可以单独承担的工作。公司致力于与研究人员、政策制定者和公众积极合作,认识到集体努力对于为人工智能构建最强大、最有效的保障措施至关重要。