ChatGPT-5的‘博士级’AI在拼写和地理上栽跟头
OpenAI 推出了 GPT-5,这是其旗舰 ChatGPT 模型的最新版本,已向该平台每周 7 亿用户开放。尽管首席执行官萨姆·奥特曼将其誉为“口袋里的博士级专家”,是其“大学生”前身的一次重大飞跃,但早期用户对这款新 AI 的体验却描绘出了一幅奇特的景象,揭示了其在拼写和地理等基本任务上意想不到的挣扎。
尽管有雄心勃勃的声明,社交媒体用户很快发现这款高级聊天机器人会犯基本的实事错误。例如,Bluesky 上的一位用户发现 GPT-5 反复坚称“blueberry”(蓝莓)一词包含三个“B”。AI 自信地回应道:“是的——‘blueberry’就是那些中间差点让你犯错的词之一,就像它在说‘b-b-注意了’一样,”并补充道,“不过,那个小小的‘bb’瞬间令人满意——它让这个词感觉格外有弹性。”
这些不准确之处不仅限于简单的拼写。另一位用户报告称,该聊天机器人无法正确识别包含字母“R”的美国州份。当被要求生成地图时,GPT-5 不仅拼错了“Krizona”和“Vermoni”等州名,还重复列出了加利福尼亚州,并编造了“New Jefst”和“Mitroinia”等不存在的州。澳大利亚卫报对该模型的测试进一步凸显了这些局限性:虽然 GPT-5 可以识别包含“R”的澳大利亚州和地区,但它错误地指出北领地只有三个“R”而不是五个,并在地图上将其渲染为“Northan Territor”。
OpenAI 在被要求置评时,此前在产品发布时曾表示,GPT-5 将表现出更少的错误和“AI 幻觉”——即 AI 自信地编造信息的现象。该公司将这些问题的潜在来源归因于 GPT-5 复杂的架构,该架构采用了一个“实时路由器”,旨在根据对话的类型和意图选择最合适的内部 AI 模型。OpenAI 建议用户可以通过指示 AI“认真思考”来促使其启用最先进的推理模型。该公司声称,该路由系统通过用户反馈(包括模型切换和响应偏好率)不断完善。
然而,行业专家的观察表明问题可能更深。媒体和 AI 初创公司 Every 的首席执行官丹·希珀指出,GPT-5 有时甚至在那些逻辑上应该触发其推理模型的问题上也会产生幻觉。希珀讲述了一个案例:在拍摄了一段小说节选并要求解释后,GPT-5 会“自信地编造内容”。然而,他发现明确要求 AI“多思考一会儿”通常能得到准确的回答。
尽管 OpenAI 首席执行官萨姆·奥特曼承认该 AI 尚未达到通用人工智能 (AGI)——一种类似人类认知能力水平——但他将 GPT-5 描述为“普遍智能”,并且是“迈向 AGI 道路上的重要一步”。然而,当前的用户体验凸显了弥合复杂 AI 能力与即使是基本语言模型也应具备的基础准确性之间差距的持续挑战。