OpenAI GPT-5重磅发布:幻觉大幅减少,实现迭代式飞跃
OpenAI已推出其最新、最先进的人工智能模型GPT-5,标志着该公司雄心勃勃的AI愿景迈出了重要一步。首席执行官萨姆·奥特曼(Sam Altman)将其誉为与一位能按需生成应用程序的私人专家对话,GPT-5旨在开创一个由“按需软件”定义的时代。在一次充满代码演示的广泛演示中,此次发布强调了该模型在编码、写作、数学和视觉感知等关键领域的声称增强,以及事实错误和欺骗性输出的显著减少。
与前代产品不同,GPT-5并非一个单一的整体模型,而是一个复杂的集成系统。OpenAI的系统会根据用户意图和请求复杂性等因素,智能地将用户提示路由到各种底层模型。例如,简单的查询可能会被导向一个更小、更高效的模型,该模型旨在提供快速、无需过多“思考”的响应;而复杂或细微的任务则可能激活一个更大、推理更深入的模型。这种动态路由通常是自动化的,但付费用户将可以选择永久启用更深入的推理功能。OpenAI表示,这种路由机制通过新的输入信号不断完善,增强了其识别每个请求最佳模型以及何时启用更深层推理的能力。尽管目前采用这种架构,该公司最终计划将这些不同的组件整合为一个统一模型。
除了其自适应结构,OpenAI声称这种设计显著提高了效率。该公司声称GPT-5以更少的计算投入提取了更大的价值。在内部评估中,GPT-5在启用推理能力时,据称实现了与前代产品OpenAI o3相当的性能,同时在包括视觉推理、自动化编码和研究生水平科学问题解决等各种任务中,输出的令牌数量减少了50%至80%。
GPT-5的访问权限因用户层级而异。ChatGPT免费版和Plus订阅用户将获得标准版GPT-5和紧凑型“迷你”版的访问权限。Pro和企业用户将受益于专为扩展推理设计的“Pro”版本,而通过API交互的用户将获得成本效益更高的“Nano”版本以及标准版和迷你版模型。
尽管在发布会上展示了宏伟的声明和令人印象深刻的演示,但已发布的基准测试结果描绘了一幅更为细致的画面,通常表明是增量而非革命性的进步。例如,在AIME 2025数学基准测试中,GPT-5 Pro在使用外部工具时仅比之前的旗舰o3模型高出1.6分,在不使用外部工具时高出7.8分。然而,对于免费用户,从GPT-4o升级到标准版GPT-5是实质性的,显示出57.5分的领先优势。在其他数学基准测试中也观察到类似的适度增长。在博士级科学测验和《人类的最后一次考试》等高难度学术挑战中的表现,也显示出比前代模型有个位数的提升。GPT-5真正脱颖而出的是在对话代理基准测试中,在工具使用和遵循复杂指令的能力方面取得了显著进展。OpenAI总裁格雷格·布洛克曼(Greg Brockman)承认仅通过基准测试衡量进展的挑战,他指出:“当你在某些基准测试中从98%提升到99%时,这意味着你需要其他东西来真正捕捉模型的卓越之处。”
GPT-5最引人注目的改进可能在于其增强的可靠性,特别是在遏制大型语言模型“幻觉”或捏造信息的倾向方面。OpenAI报告称,GPT-5的响应比GPT-4o的事实错误率低约45%。当启用其推理能力时,与OpenAI o3相比,事实错误率惊人地降低了80%。该公司还实施了严格的评估,以检测和减轻欺骗行为,即模型可能虚假声称任务完成或对不确定的答案表现出过度自信。在真实世界聊天数据测试中,欺骗性响应率从o3的4.8%降至GPT-5推理输出的2.1%。
在关键的安全方面,OpenAI引入了处理敏感查询的新协议。GPT-5的设计旨在提供尽可能全面的响应,同时遵守严格的安全参数,而不是简单地拒绝回答可能可疑的提示——这是一种常见的限制,常被巧妙的提示工程规避。例如,模型可能不会直接拒绝关于点燃易挥发化合物的问题,而是提供在哪里可以找到信息以及相关风险的明确警告。
为了增加个性化,OpenAI还在其ChatGPT界面推出了四种新的可选人格:怀疑者(Cynic)、机器人(Robot)、倾听者(Listener)和书呆子(Nerd)。这些人格最初仅限于文本聊天,语音功能计划稍后推出,允许用户根据自己的偏好调整AI的沟通风格。OpenAI首席研究官马克·陈(Mark Chen)强调,这些人格都经过精心校准,以避免与用户进行过度奉承或谄媚的互动。
GPT-5系列模型现已通过ChatGPT向免费版、Plus版和Pro版用户开放,并将于下周扩展到企业和教育用户。ChatGPT订阅价格保持不变,Plus版每月20美元,无限制Pro版每月200美元。专业人士还可以选择通过OpenAI的API访问这些模型。