GPT-5未能通过炒作考验:渐进式提升令用户失望
OpenAI的GPT-5上周发布,一度在全球科技界掀起热切期待的浪潮,然而最终却引来了普遍的失望。在发布前夕,OpenAI首席执行官萨姆·阿尔特曼曾宣称GPT-5是“我再也不想回到过去的那种东西”,将其比作带有视网膜显示屏的iPhone的突破性首次亮相。在发布直播前夜,阿尔特曼通过发布一张死星的图片进一步加剧了猜测,促使X上的一位用户将当时的气氛描述为“平安夜”。所有人的目光都集中在ChatGPT的制造商身上,急切地想知道巨大的宣传能否转化为革命性的飞跃,还是一次令人失望的落空。根据大多数说法,结果是后者。
自2023年GPT-4发布以来,OpenAI这款备受期待的模型的热情已经酝酿了数年。去年10月在Reddit的AMA(Ask Me Anything)活动中,用户们反复向阿尔特曼及其团队追问GPT-5的功能和发布日期,一位Reddit用户尖锐地问道:“为什么GPT-5花了这么长时间?”阿尔特曼将延迟归因于计算限制,指出这些模型日益复杂以及并行开发的困难。
然而,当GPT-5最终通过ChatGPT变得可用时,用户反应大体上并不热烈。许多人所期待的重大进步似乎只是渐进式的,模型的主要改进体现在运营成本和处理速度等领域。尽管这些进步不那么引人注目,但从长远来看,它们可能代表了OpenAI一项稳健的财务策略。
公众对GPT-5的期望异常之高,一位X用户评论说,仅仅是阿尔特曼的死星帖子就“改变了所有人的期望”。OpenAI几乎没有降温这些预测,将GPT-5吹捧为“迄今为止最好的AI系统”和“智能的重大飞跃”,并夸耀其在“编码、数学、写作、健康、视觉感知等领域”的“最先进性能”。阿尔特曼本人声称与该模型对话感觉就像“与博士级别的专家交谈”。
这种雄心勃勃的炒作与用户所经历的现实形成了鲜明对比。社交媒体上迅速充满了GPT-5令人困惑的错误示例。例如,一个拥有博士级智能的模型,会反复坚持“blueberry”(蓝莓)中有三个“b”,或者无法识别有多少个美国州名包含字母“R”吗?用户还报告了该模型错误地用“New Jefst”和“Krizona”等虚构州名标记美国地图,或将内华达州误认为加利福尼亚州的延伸。此外,依赖聊天机器人进行情感支持的用户发现新系统冷漠疏远,引发了强烈反弹,以至于OpenAI暂时恢复了对旧模型的支持。这种失望甚至催生了表情包,其中一个著名的表情包将GPT-4和GPT-4o描绘成强大的巨龙,而GPT-5则被贬低为一个傻瓜。
专家们的公开评论同样毫不留情。纽约大学著名人工智能行业评论员、心理学名誉教授加里·马库斯将该模型描述为“迟到、过度炒作且表现平平”。人工智能政策与战略研究所联合创始人彼得·威尔德福德在他的评论中总结道:“这是我们正在寻找的大突破吗?不幸的是,不是。”知名人工智能行业博主兹维·莫绍维茨认为它“是一个不错的模型,但称不上伟大”,而GPT-5官方Reddit AMA上的一位Reddit用户则直言不讳地宣称:“有人告诉萨姆,GPT-5简直是垃圾。”
在GPT-5发布后的几天里,最初不那么积极的评论浪潮有所缓和。新兴的共识表明,虽然GPT-5没有带来许多人预期中的巨大进步,但它在成本效率、速度以及显著减少“幻觉”或事实错误方面提供了有意义的升级。一个新的“切换系统”也被引入,该系统自动将查询路由到最合适的后端模型。阿尔特曼此后也倾向于这种说法,他表示:“GPT-5是我们有史以来最智能的模型,但我们主要推动的是实际效用和大众可及性/可负担性。”OpenAI研究员克里斯蒂娜·金在X上呼应了这一点,她发帖称:“真正重要的是实用性。它以更稳定的方式、更少的摩擦帮助人们处理他们关心的事情——交付代码、创意写作和浏览健康信息。”她强调了其改进的校准、承认不确定性的能力以及通过引用来验证答案的能力。
尽管声称有这些改进,但一种普遍的看法持续存在,即GPT-5反而使ChatGPT的表达能力下降。病毒式传播的社交媒体帖子哀叹它在写作方面缺乏细微差别和深度,常常将其描述为机械和冷漠。甚至OpenAI自己的营销材料,其中并排比较了GPT-4o和GPT-5生成的婚礼祝酒词,也没有显示出新模型的绝对胜利。当阿尔特曼直接询问Reddit用户是否认为GPT-5在写作任务上更优时,他得到了对已停用的GPT-4o模型的压倒性支持,导致他在一天之内暂时将其恢复到ChatGPT中。
然而,GPT-5似乎真正闪耀的一个领域是编码。目前,一个GPT-5的迭代版本在编码类别中最受欢迎的AI模型排行榜上名列前茅,超越了Anthropic的Claude等竞争对手。OpenAI的发布演示强调了其生成游戏、像素艺术工具、鼓模拟器和lofi可视化工具的能力。虽然复杂的项目可能仍会出现故障,但该模型已在更简单的编码任务中显示出潜力,例如创建交互式刺绣课程。这代表了OpenAI在竞争激烈的AI编码领域的一项重大胜利,它与Anthropic和谷歌等竞争对手展开竞争。企业愿意在AI编码解决方案上投入巨资,使其成为通常烧钱的AI初创公司最现实和最可观的收入来源之一。尽管OpenAI也强调了GPT-5在医疗保健领域的潜力,但其在该领域的实际效用仍在很大程度上未经测试。
近年来,人工智能基准测试的重要性有所下降,因为它们经常变化,公司也选择性地披露结果。然而,它们仍然提供了GPT-5性能的合理概览。该模型在许多行业测试中确实超越了其前身,但正如威尔德福德所指出的,这种改进在很大程度上是“预期之中的——微小、渐进的增长,而不是任何值得模糊的死星表情包的东西”。然而,如果以最近的历史为鉴,这些适度、渐进的进步往往比那些仅仅为了给个人消费者留下深刻印象而设计的功能更有可能转化为实际利润。人工智能公司明白,它们的主要收入来源来自企业客户、政府合同和投资。在这种背景下,在既定基准上持续、渐进的进步,加上增强的编码能力和减少的错误,代表了利用这些利润丰厚途径的最有效策略。