GPT-5：开发者评价褒贬不一，性价比成亮点

OpenAI 最近发布的 GPT-5 伴随着大胆的声明：它是一个“真正的编码协作伙伴”，旨在擅长生成高质量代码和执行自动化软件任务。此次发布似乎直接挑战了 Anthropic 的 Claude Code，后者已迅速成为许多寻求 AI 辅助编码的开发者的首选工具。然而，开发社区的早期反应表明，GPT-5 的表现更为微妙，呈现出一种能力上的喜忧参半。

尽管 GPT-5 在技术推理和编码任务的战略规划方面表现出强大的能力，但一些开发者认为 Anthropic 最新的 Opus 和 Sonnet 模型仍能生成更优质的代码。一个反复出现的争议点是 GPT-5 的冗长；根据其设置，该模型可能会生成过于详细的响应，有时导致不必要或冗余的代码行。此外，OpenAI 自己的 GPT-5 编码能力评估方法也引来了批评，一些人认为其基准测试具有误导性。一家研究公司甚至将 OpenAI 发布的一张宣传 GPT-5 能力的图表称为“图表犯罪”。

尽管存在这些批评，GPT-5 在一个关键领域提供了引人注目的优势：成本效益。普林斯顿大学计算机科学博士生、《AI 蛇油》合著者 Sayash Kapoor 强调了这一区别。在他的团队的基准测试中，运行一项标准评估（衡量语言模型重现 45 篇科学论文结果的能力），使用 GPT-5（设置为中等冗长）仅需 30 美元，而使用 Anthropic 的 Opus 4.1 进行相同的测试则需要高达 400 美元。Kapoor 的团队已经投入了大约 20,000 美元用于测试 GPT-5，这凸显了显著的成本差异。

然而，这种经济性伴随着准确性的牺牲。Kapoor 的测试表明，虽然更经济，但 GPT-5 的精确度不如其一些竞争对手。Claude 的高级模型在重现科学论文方面达到了 51% 的准确率，而中等版本的 GPT-5 仅达到 27%。值得注意的是，这是一种间接比较，因为 Opus 4.1 代表了 Anthropic 最强大的产品，并且 Kapoor 的团队尚未在 GPT-5 的高冗长设置下进行相同的测试。

OpenAI 通过发言人 Lindsay McCallum 将询问引导至其博客，博客中指出 GPT-5 是“与初创公司和企业中的早期测试人员合作，在真实世界编码任务上”进行训练的。该公司还展示了 GPT-5 的内部准确性测量结果，揭示其专为更深思熟虑的推理设计的“思考”模型在 OpenAI 的模型中实现了最高准确性。然而，“主要”GPT-5 模型在 OpenAI 的内部准确性衡量标准上仍落后于此前发布的模型。Anthropic 发言人 Amie Rotherham 回应称，“一旦开发者开始在生产环境中使用，性能声明和定价模型通常会看起来不同”，并暗示对于推理模型而言，“按结果计价比按 Token 计价更重要”。

在褒贬不一的评价中，一些开发者报告了 GPT-5 的积极体验。工程师、投资者兼个人造型代理 Alta 的创建者 Jenny Wang 发现，GPT-5 擅长一次性完成复杂的编码任务，超越了她经常用于代码生成和直接修复的旧版 OpenAI 模型。例如，GPT-5 一次性为公司新闻页面生成了带有特定设计元素的代码，这项任务以前需要反复提示，尽管 Wang 指出它“幻觉了 URL”。另一位不愿透露姓名的开发者赞扬了 GPT-5 解决深层技术问题的能力，称赞其在复杂网络分析工具项目中的出色建议和现实时间表。OpenAI 的几家企业合作伙伴，包括 Cursor、Windsurf 和 Notion，公开认可了 GPT-5 的编码和推理技能，Notion 声称它处理复杂工作的能力比测试过的其他模型高出 15%。

相反，一些开发者立即在网上表达了失望。正在构建 AI 电子邮件助手的 Kieran Klassen 评论说，GPT-5 的编码能力似乎“落后于曲线”，更类似于一年前发布的 Anthropic Sonnet 3.5。Doist 创始人 Amir Salihefendić 认为 GPT-5“相当平淡无奇”且“尤其不擅长编码”，将其与 Meta Llama 4 的令人失望的发布相提并论。开发者 Mckay Wrigley 称赞 GPT-5 是“现象级的日常聊天模型”，但确认他将继续使用 Claude Code 和 Opus 进行编码任务。该模型“详尽”的特性，虽然有时有帮助，也被描述为冗长得令人恼火，Wang 指出它倾向于提供“更多冗余”的解决方案。

AI 编码平台 Qodo 的联合创始人兼首席执行官 Itamar Friedman 认为，一些批评源于不断变化的期望。他区分了“ChatGPT 时代之前”（BCE），当时 AI 模型是整体改进的，以及当前 ChatGPT 后的格局，此时的进步往往是专业化的。他引用 Claude Sonnet 3.5 在编码领域的统治地位和 Google Gemini 在代码审查方面的优势作为例子。

OpenAI 还因其基准测试方法而受到审查。研究公司 SemiAnalysis 指出，OpenAI 在 SWE-bench（一个评估大型语言模型的标准 AI 行业框架）中仅进行了 500 项测试中的 477 项。OpenAI 澄清说，它始终使用 477 项任务的固定子集，因为这些任务在其内部基础设施上经过验证，并补充说模型的冗长设置变化会影响评估性能。

最终，正如 Sayash Kapoor 所观察到的，前沿 AI 公司面临着复杂的权衡。训练新模型的开发者必须平衡用户期望、跨代理编码等多样化任务的性能以及成本。Kapoor 推测，OpenAI 意识到它可能无法在所有基准测试中占据主导地位，可能旨在创建一个能够广泛吸引各类用户的模型，优先考虑引人注目的成本-性能比。

GPT-5：开发者评价褒贬不一，性价比成亮点

相关文章

AI预测核聚变成功，助力清洁能源研究

Meta的“椰子”：潜藏推理如何提升LLM能力

TextQuests：大型语言模型在复杂文本游戏中的表现探究