GPT-5:开发者评价褒贬不一,性价比成亮点

Wired

OpenAI 最近发布的 GPT-5 伴随着大胆的声明:它是一个“真正的编码协作伙伴”,旨在擅长生成高质量代码和执行自动化软件任务。此次发布似乎直接挑战了 Anthropic 的 Claude Code,后者已迅速成为许多寻求 AI 辅助编码的开发者的首选工具。然而,开发社区的早期反应表明,GPT-5 的表现更为微妙,呈现出一种能力上的喜忧参半。

尽管 GPT-5 在技术推理和编码任务的战略规划方面表现出强大的能力,但一些开发者认为 Anthropic 最新的 Opus 和 Sonnet 模型仍能生成更优质的代码。一个反复出现的争议点是 GPT-5 的冗长;根据其设置,该模型可能会生成过于详细的响应,有时导致不必要或冗余的代码行。此外,OpenAI 自己的 GPT-5 编码能力评估方法也引来了批评,一些人认为其基准测试具有误导性。一家研究公司甚至将 OpenAI 发布的一张宣传 GPT-5 能力的图表称为“图表犯罪”。

尽管存在这些批评,GPT-5 在一个关键领域提供了引人注目的优势:成本效益。普林斯顿大学计算机科学博士生、《AI 蛇油》合著者 Sayash Kapoor 强调了这一区别。在他的团队的基准测试中,运行一项标准评估(衡量语言模型重现 45 篇科学论文结果的能力),使用 GPT-5(设置为中等冗长)仅需 30 美元,而使用 Anthropic 的 Opus 4.1 进行相同的测试则需要高达 400 美元。Kapoor 的团队已经投入了大约 20,000 美元用于测试 GPT-5,这凸显了显著的成本差异。

然而,这种经济性伴随着准确性的牺牲。Kapoor 的测试表明,虽然更经济,但 GPT-5 的精确度不如其一些竞争对手。Claude 的高级模型在重现科学论文方面达到了 51% 的准确率,而中等版本的 GPT-5 仅达到 27%。值得注意的是,这是一种间接比较,因为 Opus 4.1 代表了 Anthropic 最强大的产品,并且 Kapoor 的团队尚未在 GPT-5 的高冗长设置下进行相同的测试。

OpenAI 通过发言人 Lindsay McCallum 将询问引导至其博客,博客中指出 GPT-5 是“与初创公司和企业中的早期测试人员合作,在真实世界编码任务上”进行训练的。该公司还展示了 GPT-5 的内部准确性测量结果,揭示其专为更深思熟虑的推理设计的“思考”模型在 OpenAI 的模型中实现了最高准确性。然而,“主要”GPT-5 模型在 OpenAI 的内部准确性衡量标准上仍落后于此前发布的模型。Anthropic 发言人 Amie Rotherham 回应称,“一旦开发者开始在生产环境中使用,性能声明和定价模型通常会看起来不同”,并暗示对于推理模型而言,“按结果计价比按 Token 计价更重要”。

在褒贬不一的评价中,一些开发者报告了 GPT-5 的积极体验。工程师、投资者兼个人造型代理 Alta 的创建者 Jenny Wang 发现,GPT-5 擅长一次性完成复杂的编码任务,超越了她经常用于代码生成和直接修复的旧版 OpenAI 模型。例如,GPT-5 一次性为公司新闻页面生成了带有特定设计元素的代码,这项任务以前需要反复提示,尽管 Wang 指出它“幻觉了 URL”。另一位不愿透露姓名的开发者赞扬了 GPT-5 解决深层技术问题的能力,称赞其在复杂网络分析工具项目中的出色建议和现实时间表。OpenAI 的几家企业合作伙伴,包括 Cursor、Windsurf 和 Notion,公开认可了 GPT-5 的编码和推理技能,Notion 声称它处理复杂工作的能力比测试过的其他模型高出 15%。

相反,一些开发者立即在网上表达了失望。正在构建 AI 电子邮件助手的 Kieran Klassen 评论说,GPT-5 的编码能力似乎“落后于曲线”,更类似于一年前发布的 Anthropic Sonnet 3.5。Doist 创始人 Amir Salihefendić 认为 GPT-5“相当平淡无奇”且“尤其不擅长编码”,将其与 Meta Llama 4 的令人失望的发布相提并论。开发者 Mckay Wrigley 称赞 GPT-5 是“现象级的日常聊天模型”,但确认他将继续使用 Claude Code 和 Opus 进行编码任务。该模型“详尽”的特性,虽然有时有帮助,也被描述为冗长得令人恼火,Wang 指出它倾向于提供“更多冗余”的解决方案。

AI 编码平台 Qodo 的联合创始人兼首席执行官 Itamar Friedman 认为,一些批评源于不断变化的期望。他区分了“ChatGPT 时代之前”(BCE),当时 AI 模型是整体改进的,以及当前 ChatGPT 后的格局,此时的进步往往是专业化的。他引用 Claude Sonnet 3.5 在编码领域的统治地位和 Google Gemini 在代码审查方面的优势作为例子。

OpenAI 还因其基准测试方法而受到审查。研究公司 SemiAnalysis 指出,OpenAI 在 SWE-bench(一个评估大型语言模型的标准 AI 行业框架)中仅进行了 500 项测试中的 477 项。OpenAI 澄清说,它始终使用 477 项任务的固定子集,因为这些任务在其内部基础设施上经过验证,并补充说模型的冗长设置变化会影响评估性能。

最终,正如 Sayash Kapoor 所观察到的,前沿 AI 公司面临着复杂的权衡。训练新模型的开发者必须平衡用户期望、跨代理编码等多样化任务的性能以及成本。Kapoor 推测,OpenAI 意识到它可能无法在所有基准测试中占据主导地位,可能旨在创建一个能够广泛吸引各类用户的模型,优先考虑引人注目的成本-性能比。