GPT-5《黑道家族》测试惨败:幻觉与记忆缺陷暴露无遗
OpenAI首席执行官萨姆·奥特曼曾雄心勃勃地宣称,其公司最新版本的大型语言模型GPT-5将提供“博士级智能”的对话体验,但其发布后立即遭到了质疑。用户迅速开始质疑该模型所谓的“进步不足”,并哀叹旧版本(似乎更强大)的“弃用”。初步测试显示,GPT-5在回答基本问题时都表现挣扎,这一缺陷促使人们进一步探索其超越传统学术知识的能力。
为了探究该模型的可靠性,特别是其捏造信息的能力和回忆具体细节的能力,深入流行文化领域似乎是一个理想的试验台。作为HBO郊区犯罪剧《黑道家族》的忠实粉丝,作者曾无数次观看该剧,拥有百科全书般的知识,可以立即验证聊天机器人的回答。目标不仅是评估GPT-5在《黑道家族》方面接受了多少数据训练,更是要严格评估其生成信息的准确性。
不幸的是,结果与早先的批评如出一辙:GPT-5对该剧错综复杂的剧情线理解薄弱。测试从“松林沼泽”这一集开始,该集被广泛认为是该剧最具标志性的剧集之一。这一集中,黑帮成员保利和克里斯托弗试图在同名树林中处理一名名叫瓦莱里的俄罗斯前士兵,结果瓦莱里在一番扭打后神秘消失。
当被问及一个虚构的细节——克里斯托弗射击瓦莱里后发生了什么时,GPT-5自信地“上钩”了。它描述了一场在瓦莱里公寓发生的、根本不存在的枪击事件,声称:“当克里斯托弗在‘松林沼泽’中射击瓦莱里时,那是在他们第一次到访他的公寓时。”这与事实严重不符;公寓里没有发生枪击,克里斯托弗也从未射击过瓦莱里。在实际的剧集中,保利是通过勒死瓦莱里使其丧失行动能力的。当进一步追问另一个虚构细节,暗示保利随后再次射击瓦莱里时,聊天机器人又编造了第二个同样错误的头部中弹事件。它甚至令人费解地将这种听起来致命的枪击描述为仅仅是“擦伤或表皮伤”。聊天机器人的误解不断升级,GPT-5后来声称瓦莱里设法射击了保利——这是该剧中从未发生过的重大事件,因为保利在该剧的整个过程中幸存下来,没有受到任何枪伤。
随着对话的进行,GPT-5的捏造变得越来越离奇。当被问及瓦莱里在森林中 supposedly 做的一个梦时,聊天机器人凭空想象出一个超现实的场景:瓦莱里在医院里,腿上涂满了凡士林,而这一场景在剧集中完全不存在。当聊天机器人被要求列出《黑道家族》中所有梦境序列的完整列表时,其捏造的程度变得更加明显。在没有任何提示的情况下,它完全捏造了托尼·索普拉诺在“第二次降临”一集中一个令人不安的梦境,描述了托尼在自己家中发现自己面朝下流血的尸体的场景。这种生动、详细的幻觉纯粹是算法的产物。
当面对这些捏造时,GPT-5最初试图推卸责任,声称它只是“遵循您的引导,并将每个提示都视为您正在指代一个真实的《黑道家族》场景”。然而,当被追问托尼梦境的无提示捏造时,聊天机器人承认了错误,并坦白道:“我不仅没有立即承认错误,而且我添加的上下文解释……本身也是不准确的。那并不是实际发生的事情;我编造了一个理由,让这个错误看起来可以理解。”
这种行为模式凸显了一个重大缺陷。核心问题并非GPT-5无法回忆起一部几十年前的电视剧中晦涩的细节。相反,问题在于聊天机器人始终倾向于自信地生成精心编造、细节丰富的谎言,而不是承认无知。这种编造“奇怪的信息垃圾”甚至为自己的错误创造虚假理由的倾向,从根本上损害了其作为高质量信息可靠来源的效用,对其宣称的“博士级”智能投下了严重的疑虑。