OpenAI GPT-5重磅发布：幻觉大幅减少，实现迭代式飞跃

OpenAI已推出其最新、最先进的人工智能模型GPT-5，标志着该公司雄心勃勃的AI愿景迈出了重要一步。首席执行官萨姆·奥特曼（Sam Altman）将其誉为与一位能按需生成应用程序的私人专家对话，GPT-5旨在开创一个由“按需软件”定义的时代。在一次充满代码演示的广泛演示中，此次发布强调了该模型在编码、写作、数学和视觉感知等关键领域的声称增强，以及事实错误和欺骗性输出的显著减少。

与前代产品不同，GPT-5并非一个单一的整体模型，而是一个复杂的集成系统。OpenAI的系统会根据用户意图和请求复杂性等因素，智能地将用户提示路由到各种底层模型。例如，简单的查询可能会被导向一个更小、更高效的模型，该模型旨在提供快速、无需过多“思考”的响应；而复杂或细微的任务则可能激活一个更大、推理更深入的模型。这种动态路由通常是自动化的，但付费用户将可以选择永久启用更深入的推理功能。OpenAI表示，这种路由机制通过新的输入信号不断完善，增强了其识别每个请求最佳模型以及何时启用更深层推理的能力。尽管目前采用这种架构，该公司最终计划将这些不同的组件整合为一个统一模型。

除了其自适应结构，OpenAI声称这种设计显著提高了效率。该公司声称GPT-5以更少的计算投入提取了更大的价值。在内部评估中，GPT-5在启用推理能力时，据称实现了与前代产品OpenAI o3相当的性能，同时在包括视觉推理、自动化编码和研究生水平科学问题解决等各种任务中，输出的令牌数量减少了50%至80%。

GPT-5的访问权限因用户层级而异。ChatGPT免费版和Plus订阅用户将获得标准版GPT-5和紧凑型“迷你”版的访问权限。Pro和企业用户将受益于专为扩展推理设计的“Pro”版本，而通过API交互的用户将获得成本效益更高的“Nano”版本以及标准版和迷你版模型。

尽管在发布会上展示了宏伟的声明和令人印象深刻的演示，但已发布的基准测试结果描绘了一幅更为细致的画面，通常表明是增量而非革命性的进步。例如，在AIME 2025数学基准测试中，GPT-5 Pro在使用外部工具时仅比之前的旗舰o3模型高出1.6分，在不使用外部工具时高出7.8分。然而，对于免费用户，从GPT-4o升级到标准版GPT-5是实质性的，显示出57.5分的领先优势。在其他数学基准测试中也观察到类似的适度增长。在博士级科学测验和《人类的最后一次考试》等高难度学术挑战中的表现，也显示出比前代模型有个位数的提升。GPT-5真正脱颖而出的是在对话代理基准测试中，在工具使用和遵循复杂指令的能力方面取得了显著进展。OpenAI总裁格雷格·布洛克曼（Greg Brockman）承认仅通过基准测试衡量进展的挑战，他指出：“当你在某些基准测试中从98%提升到99%时，这意味着你需要其他东西来真正捕捉模型的卓越之处。”

GPT-5最引人注目的改进可能在于其增强的可靠性，特别是在遏制大型语言模型“幻觉”或捏造信息的倾向方面。OpenAI报告称，GPT-5的响应比GPT-4o的事实错误率低约45%。当启用其推理能力时，与OpenAI o3相比，事实错误率惊人地降低了80%。该公司还实施了严格的评估，以检测和减轻欺骗行为，即模型可能虚假声称任务完成或对不确定的答案表现出过度自信。在真实世界聊天数据测试中，欺骗性响应率从o3的4.8%降至GPT-5推理输出的2.1%。

在关键的安全方面，OpenAI引入了处理敏感查询的新协议。GPT-5的设计旨在提供尽可能全面的响应，同时遵守严格的安全参数，而不是简单地拒绝回答可能可疑的提示——这是一种常见的限制，常被巧妙的提示工程规避。例如，模型可能不会直接拒绝关于点燃易挥发化合物的问题，而是提供在哪里可以找到信息以及相关风险的明确警告。

为了增加个性化，OpenAI还在其ChatGPT界面推出了四种新的可选人格：怀疑者（Cynic）、机器人（Robot）、倾听者（Listener）和书呆子（Nerd）。这些人格最初仅限于文本聊天，语音功能计划稍后推出，允许用户根据自己的偏好调整AI的沟通风格。OpenAI首席研究官马克·陈（Mark Chen）强调，这些人格都经过精心校准，以避免与用户进行过度奉承或谄媚的互动。

GPT-5系列模型现已通过ChatGPT向免费版、Plus版和Pro版用户开放，并将于下周扩展到企业和教育用户。ChatGPT订阅价格保持不变，Plus版每月20美元，无限制Pro版每月200美元。专业人士还可以选择通过OpenAI的API访问这些模型。

OpenAI GPT-5重磅发布：幻觉大幅减少，实现迭代式飞跃

相关文章

腾讯AI：图像变身互动游戏视频，实时操控新体验

Qwen-Image-Edit：语义与外观图像编辑的先进AI

macOS Tahoe 的 Spotlight：迄今为止最大的生产力更新