GPT-5褒贬不一:OpenAI是否达到了预期?
备受期待的OpenAI GPT-5模型于2025年8月7日发布,但其反响却褒贬不一。初步用户反馈表明,尽管其进步显著,但在人们极高期望的背景下,这些进步可能被认为是“平平无奇”。尽管OpenAI首席执行官萨姆·奥特曼(Sam Altman)将GPT-5誉为“重大升级”和“通向AGI之路上的重要一步”,但Reddit等平台上的即时公众反应却包括失望之情,一些用户甚至称此次升级“糟糕透顶”。这种分歧凸显了行业渐进式发展与公众对实现通用人工智能(AGI)革命性飞跃的渴望之间日益扩大的鸿沟。
OpenAI将GPT-5定位为迄今为止最强大的模型,将以前的功能整合到一个统一的系统中,使其“更智能、更快速、更有用”。此次迭代的核心重点是大幅减少“幻觉”,这是大型语言模型中普遍存在的问题,即系统会生成看似合理但不正确的信息。OpenAI声称GPT-5能够提供“比以往任何推理模型都更准确的答案”,这是对实际应用至关重要的改进。此外,该模型还表现出更高的速度和效率,能够快速处理简单的查询,同时在处理复杂问题时暂停“思考”,从而显著加快响应速度。
从技术角度来看,GPT-5在编码和代理任务方面表现出色。OpenAI将其誉为“迄今为止最适合编码的模型”,在SWE-bench Verified(74.9%)和Aider polyglot(88%)等关键基准测试中取得了令人印象深刻的成绩。它在调试、代码编辑和导航复杂代码库方面表现出卓越的能力,并且通过使用比其前身o3更少的输出标记和工具调用,以更高的效率实现了这些结果。该模型还在多模态推理方面创造了新的最先进记录,以更高的准确性处理大学水平的视觉推理和基于视频的任务。
然而,最初的公众情绪常常与这些技术进步形成对比。尽管一些早期测试人员和开发人员称赞GPT-5“极其智能”,是“很少犯错的好伙伴”,但一部分用户群体,尤其是在Reddit上,表达了不满,一些人抱怨无法再访问他们认为在某些任务上更可靠的旧版特定模型,如GPT-4o。这种反应表明,对许多人来说,“平平无奇”的提升在日常用户体验中比在基准改进中感受更明显。GPT-5的定价策略,即具有侵略性竞争力且输入成本仅为GPT-4o的一半,与谷歌的Gemini 2.5 Pro持平,这可能是一种战略举措,旨在缓解可能未达预期的打击并扩大可及性。
最终,GPT-5代表了OpenAI通过专注于实用性和可靠性来巩固其市场地位并加速企业增长的战略努力。虽然它可能没有带来AI社区中一些人所预期的戏剧性、范式转变的突破,但其在编码、准确性和效率等核心领域的显著改进对于AI持续集成到复杂工作流程中至关重要。当前褒贬不一的反应突显了一个日益成熟的AI格局,其中渐进但至关重要的进步在公众对变革性创新的不懈渴望的背景下受到越来越多的审视。