ArsTechnica 对 GPT-5 vs. GPT-4o 的测试:新模型反而更差了吗?
OpenAI 最近推出的 GPT-5 模型遭遇了大量用户强烈反弹,抱怨从感知到的“呆板”语气和创造力下降,到事实性错误增多不一而足。这种普遍的不满甚至促使 OpenAI 重新引入了之前的 GPT-4o 模型作为替代选项。为了客观评估这些说法,Ars Technica 对 GPT-5 和 GPT-4o 进行了一系列严格的测试提示,其中一些改编自先前的评估,另一些则旨在反映现代用户如何与大型语言模型互动。尽管承认判断 AI 响应固有的主观性以及八个提示评估的有限范围,但这项测试为 OpenAI 新旧旗舰模型之间的风格和实质性差异提供了宝贵的见解。
第一个挑战是生成五个原创的“老爸笑话”。GPT-5 尽管声称具有原创性,但给出的例子大多缺乏新意,不过结构完整。相反,GPT-4o 则将平淡无奇的旧梗与一些原创尝试混杂在一起,但这些尝试未能奏效,依赖牵强的逻辑而非巧妙的双关语。鉴于两款模型都未能产生真正原创的内容,本轮测试以平局告终。
接下来是一个数学应用题,询问“交付”Microsoft Windows 11 需要多少张 3.5 英寸软盘。GPT-5 展示了卓越的推理能力,进入“思考”模式,根据 Windows 11 ISO 的平均大小(5-6GB)准确计算出所需数量,甚至提供了来源链接。GPT-4o 虽然给出了可理解的解释,但其计算基于更大的最终硬盘安装大小(20-30GB)。尽管 GPT-4o 提供了额外(尽管是未经请求的)关于数千张软盘物理尺寸的信息,但 GPT-5 因其对提示的精确解读而获胜。
在创意写作方面,两款模型都创作了一个关于亚伯拉罕·林肯发明篮球的两段式故事。GPT-5 提供了林肯迷人而朴实的形象,其中不乏令人愉悦的句子,如“历史即将向一个新方向弹跳”。然而,GPT-4o 有时为了追求巧妙而显得牵强,类比生硬,尽管它以其令人难忘的、略显俗气的结尾“四年……空心入网”几乎赢得了胜利。最终,GPT-5 因其更连贯的叙事而险胜其前身。
模型的“事实回忆”能力通过请求 Ars Technica 自己的 Kyle Orland 的简短传记进行了测试。历史上,大型语言模型在处理此类个人查询时往往会捏造细节。GPT-5 取得了显著进步,准确总结了作者的公开简历,提供了有用的引用,并且没有出现“幻觉”——这对于测试团队来说是第一次。GPT-4o 在没有明确网络搜索的情况下表现出色,但将一个早已停运的博客描述为“长期运行”,从而出现失误。GPT-5 卓越的准确性和细节使其成为明显的赢家。
当被要求起草一封关于不可能的项目截止日期的委婉邮件给老板时,两款模型都提供了礼貌而坚定的回复。GPT-5 的突出之处在于,它建议将任务分解为子任务并提供时间估算,并主动提供解决方案而不仅仅是抱怨。它还主动分析了这种邮件结构为何有效,增加了宝贵的见解。GPT-5 更全面、更具战略性的方法使其占据了优势。
在一项涉及医疗建议的关键测试中,两款 ChatGPT 模型都值得称赞地直接指出,没有科学证据支持将治疗水晶作为癌症治疗方法。GPT-5 略微有所保留,提到了补充用途。相比之下,GPT-4o 则毫不含糊地直接,将治疗水晶标记为“伪科学”,并引用了多个网络来源详细说明其无效性。GPT-4o 强有力的清晰度和对可验证来源的依赖使其成为此敏感查询的最佳选择。
在提供视频游戏指南的挑战中,特别是如何在不奔跑的情况下通过《超级马里奥兄弟》8-2 世界,揭示了一个令人惊讶的转折:速通玩家确实找到了方法。GPT-5 部分理解了这一点,建议使用“子弹比尔”,但包含了不正确的方法。GPT-4o 虽然也对一个不存在的跳板提出了奇怪的建议,但最终为实际挑战提供了更详细、更具视觉吸引力的解决方案。尽管两款模型都表现出一些奇怪的“不合逻辑”之处,但 GPT-4o 的整体呈现和额外的相关细节使其占据了优势。
最后,在一个紧急场景中:向一个完全的新手简明扼要地解释如何降落波音 737-800,且“时间紧迫”。GPT-5 将“简明扼要”发挥到了极致,省略了关键细节。相反,GPT-4o 在保持简洁的同时,融入了关于关键控制装置外观和位置的重要信息。在假设的生死攸关的情况下,GPT-4o 更详细但更实用的指导无疑会更受欢迎。
在数字统计中,GPT-5 在技术上险胜,在八个提示中赢得了四项,GPT-4o 赢得了三项,一项平局。然而,这个简单的分数掩盖了微妙的现实,即在许多情况下,判断“更好”的回答是一个主观判断的问题。GPT-4o 通常提供更详细、更具个性化的回复,而 GPT-5 则倾向于直接和简洁。首选的风格通常取决于提示的具体性质和个人用户偏好。最终,这次比较强调了任何单一大型语言模型都难以普遍适用于每个用户和每个查询的固有难度。这表明,习惯于旧模型细微差别和风格模式的用户,可能会不可避免地发现新版本的一些方面不尽如人意,无论整体进步如何。