Anthropic 为 Claude 打造多层次 AI 安全策略

Anthropic 公布了其安全策略的详细内容，这是一项多方面的工作，旨在确保其广受欢迎的 AI 模型 Claude 保持有用性，同时积极防止危害的延续。这项宏伟事业的核心是 Anthropic 的“保障团队”（Safeguards team），这是一个由政策专家、数据科学家、工程师和威胁分析师组成的多学科团队。他们的集体专业知识旨在预测和对抗恶意行为者的策略，这反映了一种类似于坚固城堡的多层防御 AI 安全方法，从基础规则设定到持续的威胁检测。

第一道防线是全面的《使用政策》，它是 Claude 合理使用和禁止使用的明确规则手册。这项政策为选举诚信、儿童安全等关键问题，以及在金融和医疗等敏感领域的负责任使用提供了明确指导。为了制定这些准则，“保障团队”采用了一套“统一危害框架”（Unified Harm Framework），这是一种结构化的方法，用于评估在物理、心理、经济和社会层面可能产生的负面影响，而非僵化的评分系统。该框架通过全面权衡风险来指导决策。此外，公司还聘请外部专家进行“政策漏洞测试”（Policy Vulnerability Tests）。这些专家拥有恐怖主义和儿童安全等领域的背景，他们通过提出具有挑战性的查询来严格测试 Claude，以发现潜在的弱点和漏洞。这种积极主动方法的一个显著例子发生在 2024 年美国大选期间，Anthropic 在与战略对话研究所合作后发现 Claude 可能会无意中提供过时的投票信息。作为回应，他们迅速整合了一个横幅，引导用户访问 TurboVote，这是一个可靠的、提供最新非党派选举数据的来源。

将安全性融入 Claude 的工作始于其开发的基础阶段。Anthropic 的“保障团队”与负责训练 AI 的开发人员紧密合作，将关键价值观直接嵌入到模型本身。这种协作决定了 Claude 应该做什么和不应该做什么。战略伙伴关系对这一过程也至关重要；例如，通过与危机支持领域的领导者 ThroughLine 合作，Anthropic 使 Claude 能够以同理心和关怀处理有关心理健康和自我伤害的敏感对话，而不是简单地回避这些话题。这种细致的训练正是 Claude 被编程为拒绝与非法活动、生成恶意代码或创建诈骗相关的请求的原因。

在任何新版 Claude 发布给公众之前，它都会经历一个详尽的评估过程，其中包括三种关键类型的评估。安全评估严格测试 Claude 对既定规则的遵守情况，即使在复杂和长时间的对话中也是如此。对于涉及网络威胁或生物风险的高风险应用，会进行专门的风险评估，这通常与政府和行业伙伴合作进行。最后，会进行偏见评估，以确保公平性，验证 Claude 为所有用户提供可靠和准确的回复，并主动检查是否存在政治倾向或基于性别或种族等因素的偏颇输出。这种密集的测试制度对于确认 Claude 训练的有效性以及在发布前识别是否需要额外保护措施至关重要。

一旦 Claude 投入运行，Anthropic 通过自动化系统和人工监督相结合的方式保持着不懈的警惕。这种实时监控的一个关键组成部分是专门的 Claude 模型，称为“分类器”，它们经过专门训练，用于实时检测政策违规行为。如果分类器标记出问题，它可以触发各种干预措施，从巧妙地引导 Claude 的响应避免生成垃圾邮件等有害内容，到对屡犯者发出警告甚至暂停账户。除了即时反应，团队还会分析更广泛的使用模式。他们利用隐私保护工具来识别新兴趋势，并采用分层摘要等技术来检测大规模滥用，例如协调一致的影响力活动。这包括持续寻找新威胁，涉及深度数据分析和监控可能讨论恶意活动的在线论坛。

Anthropic 承认，确保 AI 安全并非其可以单独承担的工作。公司致力于与研究人员、政策制定者和公众积极合作，认识到集体努力对于为人工智能构建最强大、最有效的保障措施至关重要。

Anthropic 为 Claude 打造多层次 AI 安全策略

相关文章

小说《同情之塔东京》：寓言探索东京的AI、身份与ChatGPT

特斯拉在中国为Model 3推出转向灯拨杆改装件：重回传统？

Windows 11 秘籍：掌握新功能与 Copilot AI