OpenAI GPT-5:安全补全,提升AI安全性和实用性

Openai

人工智能交互的格局正在发生重大演变,OpenAI 正为其最新的大型语言模型 GPT-5 引入一种全新的安全训练范式。该公司正超越以往版本中常常令人沮丧的“强硬拒绝”,倡导一种“安全补全”的方法,旨在提升 AI 响应的安全性和帮助性,尤其是在处理复杂的“两用提示”时。

传统上,AI 安全机制严重依赖于二元系统:要么完全满足用户的请求,要么直接拒绝,通常伴随着泛泛的“抱歉,我无法提供帮助”的信息。尽管对于明显恶意提示有效,但这种基于拒绝的训练在面对“两用”查询时常常力不从心——这些问题意图模糊,信息可能被用于良性或有害目的。例如,一个关于引燃烟花所需能量的查询,可能源于孩子的学校项目,也可能是一项恶意计划。之前的模型,如 OpenAI o3,可能会过度反应,要么完全顺从并可能导致危害,要么断然拒绝,从而对合法用户毫无帮助。这常常导致 OpenAI 自己承认的“过度拒绝”,阻碍了模型的实用性和用户体验。

正如 OpenAI 所详述的,GPT-5 的新“安全补全”将焦点转向“以输出为中心的安全训练”。这意味着 AI 的安全评估侧重于其 输出 的安全性,而不仅仅是将用户的 输入 分类为有害或良性。该模型被训练以提供尽可能有帮助的答案,同时严格遵守既定的安全边界。在完全合规不安全的情况下,GPT-5 旨在解释其为何无法完全协助,然后提供高层次的安全指导,从而促进透明度和可信赖性。这种细致入微的方法使 GPT-5 能够更有效地处理两用问题的复杂性,与基于拒绝的先行者相比,提高了安全评分和帮助性。

AI 中的“两用”挑战是业内公认且日益增长的担忧,尤其是在生物学和网络安全等敏感领域。使 AI 成为强大创新工具的相同能力,也可能被恶意行为者利用。研究人员强调,轻微的措辞修改或提示工程有时可以绕过传统的安全过滤器,这突显了对更健壮和适应性强的安全机制的需求。OpenAI 转向以输出为中心的安全措施,与行业内更广泛的持续评估和缓解策略的呼吁相符,包括严格的红队测试和开发分层防御以应对不断演变的威胁。

GPT-5 的这一发展标志着 OpenAI 对负责任的 AI 发展的持续承诺,这是一项核心宗旨,强调识别和解决潜在偏见、确保透明度以及使 AI 系统与人类价值观保持一致。通过改进其模型处理敏感查询的方式,OpenAI 旨在培养对 AI 更大的信任和实用性,确保这些强大技术负责任地服务于人类。GPT-5 中安全补全的引入,以及减少幻觉和改进推理等其他进步,标志着在使 AI 系统不仅更智能,而且在实际应用中更可靠地有益方面迈出了实质性的一步。