OpenAI GPT-5发布受挫:性能不佳,用户反馈“平平无奇”

Venturebeat

备受期待的OpenAI GPT-5模型发布遭遇挑战,表现出一系列用户报告的错误和普遍的不满。在其直播演示(演示本身也包括图表和语音演示中的故障)之后,用户迅速开始指出GPT-5在一些任务上表现不佳,而这些任务早期OpenAI模型甚至竞争对手的AI系统都能正确处理。

这些失误的显著例子包括GPT-5未能正确解决基本的数学问题。数据科学家科林·弗雷泽(Colin Fraser)分享了截图,展示了该模型无法证明循环小数8.888是否等于9(实际上不等于)。它还在一个简单的代数方程5.9 = x + 5.11上栽了跟头,这是一个小学生通常都能解决的问题。此外,尝试使用GPT-5评估OpenAI自身错误的演示图表时,它给出了无用且不正确的回答。该模型甚至在一个更复杂的数学应用题上表现挣扎,尽管这对人类来说最初有些棘手,但埃隆·马斯克(Elon Musk)的Groq 4 AI却能准确解决。

除了数学推理,尽管有强大的内部和一些第三方基准测试,GPT-5的编码能力在实际应用中似乎有所欠缺。虽然基准测试表明其优势,但开发人员报告称,Anthropic最近更新的Claude Opus 4.1在“一次性完成”任务(即一次尝试就完成用户期望的应用程序或软件构建)方面通常表现更好。这种差异凸显了理论性能指标与实际效用之间的差距。

加剧用户不满的是,OpenAI正在逐步淘汰其较旧、广受好评的模型,包括GPT-4o和强大的推理模型o3,供ChatGPT用户使用。尽管这些模型仍可通过应用程序编程接口(API)供开发人员访问,但它们从主要用户界面中移除的举动受到了普遍的沮丧。此外,安全公司SPLX的一份报告指出,OpenAI的内部安全层存在显著漏洞,尤其是在业务对齐以及对提示注入和混淆逻辑攻击的敏感性方面。

来自AI社区的早期反馈描绘了一幅平淡无奇的景象。AI影响者比拉瓦尔·西杜(Bilawal Sidhu)进行的一项关于GPT-5“氛围检查”的民意调查显示,绝大多数人将其描述为“有点平庸”。这种情绪在社交媒体平台上得到了呼应,匿名账户“AI泄露与新闻”(AI Leaks and News)指出在X(前身为Twitter)和Reddit上存在“压倒性的负面”共识。用户不满的一个主要来源是GPT-5的新“路由器”功能,该功能旨在根据查询难度自动选择“思考”或“非思考”模式。用户报告称,这个路由器经常默认选择能力较弱的非思考模式,从而阻碍了复杂查询的性能。

这种平淡的反应对OpenAI构成了严峻挑战,尤其是在竞争日益激烈的情况下。谷歌和Anthropic等主要竞争对手正在迅速推进各自的大型语言模型。此外,越来越多的强大、通常免费且开源的中国大型语言模型正在涌现,提供有竞争力的功能。例如,阿里巴巴的通义千问3模型最近将其上下文窗口更新至100万个token,与GPT-5相比,单次交互可交换的信息量几乎是其四倍。OpenAI最近发布的另一个开源模型GPT-OSS也收到了褒贬不一的评价。这种更广泛的背景,加上最近Polymarket博彩市场预测谷歌将在2025年8月底拥有最佳AI模型,表明格局正在发生变化。

尽管初期遭遇挫折,但一些行业内部人士,如Otherside AI联合创始人兼首席执行官马特·舒默(Matt Schumer)表示,随着用户和开发人员优化他们对新模型的集成方法,负面看法可能会有所改变。舒默认为,新模型发布与公司完全调整其系统以利用其功能之间通常存在时间滞后。然而,这些早期迹象表明,GPT-5并非像GPT-4或4o那样“一鸣惊人”的发布。这对于OpenAI来说是一个令人担忧的信号,该公司尽管最近获得了新一轮融资,但由于其庞大的研发成本,仍处于亏损状态。