OpenAI GPT-5：安全补全，提升AI安全性和实用性

人工智能交互的格局正在发生重大演变，OpenAI 正为其最新的大型语言模型 GPT-5 引入一种全新的安全训练范式。该公司正超越以往版本中常常令人沮丧的“强硬拒绝”，倡导一种“安全补全”的方法，旨在提升 AI 响应的安全性和帮助性，尤其是在处理复杂的“两用提示”时。

传统上，AI 安全机制严重依赖于二元系统：要么完全满足用户的请求，要么直接拒绝，通常伴随着泛泛的“抱歉，我无法提供帮助”的信息。尽管对于明显恶意提示有效，但这种基于拒绝的训练在面对“两用”查询时常常力不从心——这些问题意图模糊，信息可能被用于良性或有害目的。例如，一个关于引燃烟花所需能量的查询，可能源于孩子的学校项目，也可能是一项恶意计划。之前的模型，如 OpenAI o3，可能会过度反应，要么完全顺从并可能导致危害，要么断然拒绝，从而对合法用户毫无帮助。这常常导致 OpenAI 自己承认的“过度拒绝”，阻碍了模型的实用性和用户体验。

正如 OpenAI 所详述的，GPT-5 的新“安全补全”将焦点转向“以输出为中心的安全训练”。这意味着 AI 的安全评估侧重于其输出的安全性，而不仅仅是将用户的输入分类为有害或良性。该模型被训练以提供尽可能有帮助的答案，同时严格遵守既定的安全边界。在完全合规不安全的情况下，GPT-5 旨在解释其为何无法完全协助，然后提供高层次的安全指导，从而促进透明度和可信赖性。这种细致入微的方法使 GPT-5 能够更有效地处理两用问题的复杂性，与基于拒绝的先行者相比，提高了安全评分和帮助性。

AI 中的“两用”挑战是业内公认且日益增长的担忧，尤其是在生物学和网络安全等敏感领域。使 AI 成为强大创新工具的相同能力，也可能被恶意行为者利用。研究人员强调，轻微的措辞修改或提示工程有时可以绕过传统的安全过滤器，这突显了对更健壮和适应性强的安全机制的需求。OpenAI 转向以输出为中心的安全措施，与行业内更广泛的持续评估和缓解策略的呼吁相符，包括严格的红队测试和开发分层防御以应对不断演变的威胁。

GPT-5 的这一发展标志着 OpenAI 对负责任的 AI 发展的持续承诺，这是一项核心宗旨，强调识别和解决潜在偏见、确保透明度以及使 AI 系统与人类价值观保持一致。通过改进其模型处理敏感查询的方式，OpenAI 旨在培养对 AI 更大的信任和实用性，确保这些强大技术负责任地服务于人类。GPT-5 中安全补全的引入，以及减少幻觉和改进推理等其他进步，标志着在使 AI 系统不仅更智能，而且在实际应用中更可靠地有益方面迈出了实质性的一步。

OpenAI GPT-5：安全补全，提升AI安全性和实用性

相关文章

智谱AI GLM-4.5：高级推理、编程与智能体AI新突破

OpenAI GPT-OSS：轻量级开源模型，性能媲美顶尖对手

谷歌Genie 3 AI：实时生成可玩世界，AI训练新突破