GPT-5 与 GPT-4o:OpenAI 最新模型是升级吗?
OpenAI 近期发布的 GPT-5 在科技界引发了广泛讨论。尽管一些人赞扬其先进功能,但另一些人则指出其存在的不足,这让许多人质疑这款新的旗舰模型是否真正超越了广受好评的前身 GPT-4o。对许多用户而言,GPT-4o 已成为处理各种任务不可或缺的大语言模型(LLM),从文本摘要、图像生成到复杂数据分析无所不能。如今,GPT-5 被定位为其继任者,因此有必要进行一次批判性评估,以确定此次升级是真正的进化飞跃,还是一次可能削弱 ChatGPT 广泛吸引力的仓促发布。
为了理解这一转变的细微之处,回顾每个模型的特点至关重要。GPT-4o 于 2024 年 5 月发布,是一款开创性的多模态大语言模型,标志着用户与 ChatGPT 交互方式的重大转变。它因能够无缝处理文本、图像和音频而被称为“全能”(omni),提供了增强的编码和视觉分析能力,以及强大的语音识别和分析功能。其显著特点包括处理速度提升、响应延迟降低,以及生成异常自然和连贯的回复,同时还能访问外部工具并提供实时信息。
一年后,即 2025 年 8 月,OpenAI 推出了 GPT-5,作为其迄今为止最先进的模型。这一最新版本在 GPT-4o 的多模态基础上进行了扩展,增加了视频处理能力。GPT-5 引入了新颖的“智能体能力”,使其能够自主规划和执行复杂任务,并具有一个“统一系统”,能够智能地判断查询是需要深度推理还是更基础的处理。GPT-5 采用“边做边学”的方法,旨在变得更具同理心,同时表现出比以前模型更低的顺从性。它还在编码和写作能力方面取得了显著增强。
对其技术规格的直接比较揭示了 GPT-5 的雄心。GPT-4o 为 ChatGPT 和 API 使用提供了约 128,000 个 tokens 的巨大上下文窗口,而 GPT-5 几乎将此翻倍,为 ChatGPT 提供 256,000 个 tokens,为其 API 提供令人印象深刻的 400,000 个 tokens,使其能够处理更大容量的信息。与 GPT-4o 的单一推理模式不同,GPT-5 还引入了双模式推理系统——在快速推理和深度推理之间切换。此外,OpenAI 声称 GPT-5 的幻觉率是迄今为止最低的,这比 GPT-4o 本已很低的幻觉率有了显著改善。GPT-5 还引入了个性化功能,如个性预设和语调控制,并集成了更广泛的工具,包括 Gmail 和日历,超越了 GPT-4o 较有限的工具访问。对于企业应用,GPT-5 提供“安全完成”功能,提供有界限的有用答案,这是 GPT-4o 所没有的功能。基准测试突显了 GPT-5 在复杂问题解决方面的飞跃:其 SWE-bench 验证准确率达到 74.9%,而 GPT-4o 为 30.8%;在 AIME 2025 数学测试中,GPT-5 取得了 94.6%(不使用工具)的成绩,而 GPT-4o 为 71%;在 VideoMMMU(81.1% 对 58.8%)和 HealthBench(46.2% 对 31.6%)方面也显著提升。这些指标表明 GPT-5 专为复杂推理和企业工作流程而设计,而 GPT-4o 仍针对实时交互和创意任务进行了优化。
将这两个模型在各种任务中进行测试,揭示了它们性能的细微差别。在内容创作方面,GPT-5 在生成简洁、专家级摘要方面表现出色,能够有效地整合要点,为知识渊博的读者提供恰到好处的背景信息。相比之下,GPT-4o 则提供了对源材料中所有讨论要点的更详细、分步的摘要。在图像生成方面,两个模型都表现良好。GPT-5 生成的图像色彩更鲜艳、文字和图标更突出,尽管它在箭头连接方面出现了一个小错误。GPT-4o 生成的图像色彩较为单一,活力不足,但值得注意的是,它很好地整合了音频输入和输出源。
在编码方面,GPT-5 表现出明显优势。尽管它处理字数统计网站查询花费了一些时间,但其最终输出令人印象深刻,提供了一个功能齐全、用户界面和体验(UI/UX)精致且具有附加功能的网页。相比之下,GPT-4o 的输出感觉基本且过时,仅提供核心的字数统计功能,没有风格上的改进。在图像分析方面,GPT-5 高效分析了电路图,正确识别了其组件,提取了数值,并应用了正确的逻辑来计算输出电流和电压。GPT-4o 在此任务中表现不佳,仅识别出输出波形,但未能提取计算所需的关键数值。
最后,在涉及数独谜题的推理挑战中,GPT-5 最初在图像解释方面遇到困难,耗时超过三分钟并需要手动确认多个数值。然而,一旦得到辅助,它成功地处理并正确解决了谜题。相反,GPT-4o 完全失败,将所有缺失值都填充为零。
GPT-5 和 GPT-4o 之间的较量并没有产生明确的赢家,因为性能因任务而异。GPT-5 在编码和高级推理等复杂任务中表现出明显优势,其增强功能在此类任务中大放异彩。然而,GPT-4o 在内容创作和图像生成/分析等领域仍保持自身优势。一个显著区别还在于它们的操作速度:GPT-4o 通常提供更快的响应,而 GPT-5 有时会表现出犹豫,这可能是因为它在生成输出之前进行了更彻底的分析。尽管 GPT-5 受益于最新的训练数据和智能体优化,但其改进是否真正具有突破性,足以超越其备受喜爱的前辈,仍是一个悬而未决的问题。
最终,尽管 GPT-5 自发布以来取得了渐进式改进,但用户中仍普遍存在对 GPT-4o 回归的强烈情感。许多人认为 GPT-5 的发布可能过于仓促,导致用户不得不努力适应一个在许多常见任务中仅略微超越其前身的模型。这种被描述为“略好一点”的感知差异,使得用户难以完全放弃 GPT-4o。这表明,在 GPT-5 公开发布之前,更严格的测试和完善可能是有益的,这留下了一种对 GPT-4o 所代表的一致性和用户友好性的持久渴望。