OpenAI发布GPT-5:统一AI,复杂任务自适应推理
OpenAI已正式发布GPT-5,推出了其所描述的专为复杂任务自适应推理而设计的统一AI系统。该新架构建立在其前身的基础性进展之上,整合了之前的模型系列,使系统能够根据任何给定查询的复杂性动态调整其计算“思考努力”,旨在提供更可靠、更准确的响应。
GPT-5的访问将采用分级制,这对免费用户来说是一个重大转变,他们将首次能够体验专门为逻辑推理设计的模型。而付费订阅者将受益于更高的使用限制和一套独家功能。GPT-5的核心并非单一的庞大模型,而是一个集成系统。它利用gpt-5-main
,这是一个针对大多数日常查询的快速高效模型,同时针对复杂问题则调用更深入的推理模型gpt-5-thinking
。一个复杂的实时路由器,通过用户反馈不断优化,根据问题难度、对话上下文甚至用户明确指令(例如“仔细思考这个问题”)智能选择合适的模型。对于“Pro”订阅者,OpenAI提供了GPT-5 Pro,该变体将更多处理时间用于推理具有挑战性的问题,据报道,在近68%的困难场景中,外部评估者更倾向于选择它而非gpt-5-thinking
。
OpenAI声称GPT-5在编程、医疗保健和写作等多个领域建立了新的基准。在编码方面,该模型因其构建复杂前端界面和调试大型代码库的卓越能力而备受赞誉,在SWE-bench Verified上取得了74.9%的得分,在Aider Polyglot上取得了88%的得分,与早期版本相比,错误率显著降低了三分之二。对于健康相关查询,GPT-5旨在提供更精确的答案,充当一个能够提出后续问题的“主动思考伙伴”。在要求严苛的HealthBench Hard测试中,它取得了46.2%的得分,比其前身的31.6%有所提高,尽管OpenAI强调它不能替代医疗专业人员。其他基准测试也显示出进一步的性能提升,GPT-5在AIME 2025(数学,无工具)中得分94.6%,在MMMU(多模态理解)中得分84.2%。据报道,高级版GPT-5 Pro在针对高难度科学问题的GPQA基准测试中取得了88.4%的得分。
GPT-5的一个关键承诺在于其大幅减少“幻觉”——即生成事实不正确或无意义信息的能力。OpenAI表示,在激活网页搜索功能后,该模型的事实错误倾向比GPT-4o减少了约45%。在纯粹的“思考”模式下,错误率比其前身惊人地下降了80%。在LongFact和FActScore等开放式、基于事实的基准测试中,GPT-5产生的幻觉大约减少了六倍。即使没有最新的网络数据,GPT-5的“思考”模式在LongFact-Concepts、LongFact-Objects和FActScore上的平均幻觉率也保持在0.8%至1.4%之间,这与早期模型中24%至38%的水平相比是一个巨大的进步,意味着事实错误减少了五倍以上。该模型还被设计成对其自身局限性具有更高的透明度。在一项涉及CharXiv基准测试中关于不存在图像的问题的测试中,GPT-5仅在9%的时间内提供了自信的、虚构的答案,这与其前身的86.7%形成了鲜明对比。总体而言,GPT-5在代表性对话中的欺骗率据报道从4.8%下降到2.1%。
GPT-5引入了“安全补全”(Safe Completions),这是一项在随附研究论文中详述的新型安全范式。该系统取代了之前OpenAI认为过于僵化的“硬拒绝”方法,尤其是在信息可能同时用于有益和有害目的的模糊或双重用途主题上。GPT-5不再直接阻止请求,而是优先确保输出安全,而不是仅仅判断用户意图。该模型致力于在预定义的安全准则内提供尽可能有帮助的响应,这可能包括提供高级概述、部分答案或替代视角。据报道,人类评估者认为这种方法更安全、更有帮助且更平衡。与此一致的是,经过CAISI(美国)和UK AISI等合作伙伴超过5000小时的严格红队测试后,GPT-5-thinking在OpenAI的准备框架下被评为生物学和化学领域的“高能力”。
除了其核心能力之外,GPT-5还为其API带来了几项新功能,使开发人员能够更好地控制模型的推理努力和详细程度。“自定义工具”(Custom Tools)现在可以使用纯文本而非严格的JSON进行调用,预计这将最大限度地减少复杂输入的错误。上下文窗口已显著扩展,可容纳272,000个输入token和128,000个输出token。API现在提供三种不同的模型大小:gpt-5
、gpt-5-mini
和gpt-5-nano
,其中gpt-5
被指定为最强大的“思考”变体,定价为每百万输入token 1.25美元,每百万输出token 10美元。
ChatGPT的用户界面也正在接收更新。新模型被设计为显著减少“逢迎”行为,据测试显示,这种行为从14.5%下降到6%以下。用户将能够自定义聊天界面的视觉外观,作为研究预览,还可以从“愤世嫉俗者”(Cynic)或“书呆子”(Nerd)等四种预设个性中进行选择。GPT-5的推出即刻开始,成为团队、企业和教育客户的新默认模型,而Plus订阅者将获得更高的使用限制,Pro用户则获得GPT-5的无限制访问权限和GPT-5 Pro的独家访问权限。