GPT-5来了:OpenAI“迄今最佳AI系统”现已免费向所有ChatGPT用户开放
OpenAI已发布GPT-5及其变体GPT-5 Pro、GPT-5 mini和GPT-5 nano,称这套新系统是迄今为止最先进的人工智能系统。至关重要的是,该公司正在将这些能力扩展到所有ChatGPT层级,甚至包括免费用户。最新版本承诺显著进步,包括显著减少“虚构”(指事实错误或幻觉)、改进的编程能力,以及对敏感用户请求更精细的处理方式,称之为“安全补全”。免费ChatGPT用户也将首次获得模拟推理模型的访问权限,这项技术旨在通过将复杂问题分解为多个步骤来提高逻辑和分析查询的准确性。
GPT-5家族代表了OpenAI持续努力将其多样化的AI功能整合到统一的生态系统中。该公司将其描述为一个“统一系统”,包含用于一般查询的核心模型、用于解决挑战性问题的更深层次的“GPT-5思考”模型,以及一个实时路由器,可根据对话类型、复杂性和用户意图智能地将查询导向最合适的AI。与前身GPT-4o一样,GPT-5保持多模态能力,允许通过文本、语音和图像进行交互。此次发布已立即开始,覆盖ChatGPT庞大的每周7亿活跃用户群,访问限制因订阅层级而异。Pro订阅用户将享受GPT-5及其Pro变体的无限使用,而Plus用户将获得比免费用户更高的使用额度。对于有访问权限的用户,GPT-5 Pro将取代o3-pro模型。
虽然从GPT-3到GPT-4的飞跃代表了AI能力的巨大变革,但向GPT-5的过渡更像是一次实质性的演进,而非开创性的革命,尤其考虑到GPT-4o、GPT-4.5、GPT-4.1和o3-pro等一系列中间版本。尽管如此,“GPT-5”品牌仍具有重要影响力,很可能提升OpenAI在竞争激烈的行业中的地位。
在其技术改进中,OpenAI声称GPT-5是其“迄今最强大的编程模型”。它在SWE-bench Verified基准测试中获得74.9%的分数,在Aider Polyglot中获得88%的分数,超越了竞争对手,如Anthropic的Claude Opus 4.1,后者最近在SWE-bench中获得74.5%的分数。据报道,该模型能够以最少的指导完成复杂的端到端编程任务,甚至可以为没有编程经验的用户生成软件界面设计。在健康相关查询领域,GPT-5在OpenAI开发的HealthBench Hard基准测试中获得46.2%的分数。然而,该公司提醒用户谨慎使用,表示ChatGPT不能替代专业的医疗建议,并提醒用户所有AI语言模型作为优化参与度的预测工具,可能倾向于生成用户希望听到的回复。其他性能指标突显了GPT-5在数学方面的卓越表现,在不借助工具的情况下在AIME 2025中达到94.6%的准确率,以及多模态理解能力,在MMMU中获得84.2%的分数。凭借其扩展的推理能力,GPT-5 Pro在不借助工具的情况下,还在GPQA上以88.4%的成绩创下了新的最先进水平。OpenAI进一步声称,带有“思考”功能的GPT-5比OpenAI o3的效率更高,在各种任务中所需的输出token减少50-80%。
准确性也得到了显著提高。当与网络搜索集成时,GPT-5的回复比GPT-4o的事实错误率低约45%。当采用其“思考”模式时,这种可能性比o3降低约80%。对于长篇内容,带有“思考”功能的GPT-5比o3的虚构错误约少六倍。尽管有这些进步,仍建议用户不要仅仅依赖AI输出而不进行独立验证,因为这些模型仍然可能生成看似合理但不正确的信息来填补知识空白。
ChatGPT的用户体验也正在更新,包括可自定义的聊天颜色、引入预设的对话人格,如“愤世嫉俗者”、“机器人”、“倾听者”和“书呆子”,以及为Pro用户新增与Gmail、Google日历和Google联系人的集成。语音模式已整合到统一的“高级语音”系统中,OpenAI表示该系统能增强对用户指令的理解和更具适应性的说话风格。
OpenAI还通过“安全补全”改进了其内容审核方法。GPT-5的目标是提供“在安全边界内尽可能有用的回复”,而不是直接拒绝请求。如果请求无法满足,模型现在将提供清晰的限制解释。此外,“谄媚”问题(即GPT-4o等早期模型无意中变得过于奉承)已得到解决。通过新的评估和改进的训练,GPT-5在目标评估中已将谄媚回复的比例从14.5%降至6%以下。这对其用户交互的长期影响,特别是关于模型的心理影响,仍有待观察。
对于开发者,GPT-5可通过三个API版本访问:gpt-5、gpt-5-mini和gpt-5-nano,每个版本都在延迟和成本之间取得平衡。上下文窗口已扩展到256,000个token,比o3的200,000个显著增加,尽管GPT-4.1仍为特定需求提供更大的100万token容量。gpt-5的API定价设定为每百万输入token1.25美元(90%缓存折扣)和每百万输出token10美元,与之前的模型相当。更经济的选择是gpt-5-mini(每百万token输入0.25美元/输出2美元)和gpt-5-nano(每百万token输入0.05美元/输出0.40美元),而GPT-5 Pro的API定价尚未公布。新的开发者功能包括“自由形式函数调用”,允许将SQL命令等原始字符串直接传输到工具而无需JSON格式化,用于响应细节的冗余控制,以及用于在快速响应和深度分析之间切换的“推理工作量控制”。
GPT-5的发布正值AI领域竞争激烈之际,谷歌的Gemini模型、Anthropic的Claude家族和Meta的开源Llama模型等主要竞争对手都在争夺市场份额。OpenAI目前拥有500万付费商业用户和400万利用其API平台的开发者。GPT-5现在将取代GPT-4o、OpenAI o3、OpenAI o4-mini、GPT-4.1和GPT-4.5,成为已登录ChatGPT用户的默认模型。系统将在有利时自动应用模拟推理,尽管付费用户仍可明确请求“GPT-5思考”或使用“对此认真思考”等短语以确保更深入的分析。分阶段推广已立即面向所有用户层级启动,企业和教育客户预计下周获得访问权限。OpenAI还计划在30天内逐步淘汰标准语音模式,完全过渡到统一的高级语音系统。免费用户达到GPT-5使用限制后,将无缝切换到更小、更快的GPT-5 mini模型。