GPT-5的AGI主张受质疑:AI是否已触及瓶颈?
OpenAI最新的旗舰模型GPT-5,正被公司誉为迈向“通用人工智能(AGI)”的“重要一步”。AGI是一种假想状态,在此状态下,AI系统能在大多数具有经济价值的任务中自主超越人类。然而,尽管有这些宏伟的宣称,OpenAI首席执行官萨姆·奥特曼对GPT-5进步的描述却显得异常低调。他强调了编码能力的提升、“幻觉”(AI生成虚假信息)的减少,以及在与其他软件集成时更好地遵循多步骤指令。据报道,该模型也更安全,不那么“谄媚”,旨在不为取悦用户而欺骗或提供有害信息。
奥特曼认为,与GPT-5互动的感觉类似于与任何给定主题的博士级专家交谈。然而,这种断言立即被模型无法确定自身输出准确性的根本缺陷所削弱。例如,它在准确绘制北美地图等基本任务上表现挣扎。此外,GPT-5无法从自身经验中学习,在涵盖各种科学和学术主题的挑战性基准测试“人类的最后一次考试”中,准确率仅达到42%。这一表现略低于埃隆·马斯克xAI公司的竞争模型Grok 4,后者据报道达到了44%。
GPT-5背后的主要技术创新似乎是“路由器”的引入。该组件能智能地决定在响应查询时调用哪个内部GPT模型,本质上是确定答案所需的计算量,并根据先前选择的反馈来优化此过程。路由器可以委托给先前的领先GPT模型,或者一个名为“GPT-5 Thinking”的全新专用“更深层推理”模型。这个新模型的确切性质仍不清楚,因为OpenAI并未表明它依赖于新颖的算法或新数据集,考虑到大多数可用数据已被广泛利用。这导致人们猜测GPT-5 Thinking可能只是一个精巧的机制,用于多次提示现有模型,从而更努力地产生更好的结果。
当今强大AI系统的基础在于大型语言模型(LLM),这是一种由谷歌研究人员于2017年开发的人工智能架构。这些模型擅长于识别大量词语序列中的复杂模式,这些模式构成了人类语言的基石。通过在海量文本上进行训练,LLM学习预测给定词语序列最可能的延续,从而使其能够生成连贯且与上下文相关的用户响应。这种方法以ChatGPT等系统为例,随着LLM接触到越来越大的数据集而稳步改进。从根本上说,这些模型像一个复杂的查找表,将用户的刺激(提示)映射到最合适的响应。令人惊奇的是,这样一个看似简单的概念,使得LLM在灵活性和可用性方面超越了许多其他AI系统,尽管并非总是在绝对准确性或可靠性方面。
尽管LLM具有令人印象深刻的能力,但它们是否能真正实现AGI仍悬而未决。批评者质疑它们真正的推理能力、以人类方式理解世界的能力,或从经验中学习以改进自身行为的技能——所有这些都被广泛认为是AGI的必要要素。在此期间,一个蓬勃发展的AI软件公司行业已经出现,致力于“驯服”通用LLM,使其在特定应用中更可靠、更可预测。这些公司通常采用复杂的提示工程技术,有时多次查询模型,甚至同时使用多个LLM,调整指令直到达到预期结果。在某些情况下,它们会通过专业附加组件“微调”LLM以增强其有效性。
OpenAI直接内置于GPT-5中的新路由器,与这一行业趋势相符。如果成功,这种内部优化可以减少供应链下游对外部AI工程师的需求,并可能通过在没有额外修饰的情况下提供更好的结果,使GPT-5对用户来说更具成本效益。然而,这一战略举措也可能被视为一种隐含的承认,即LLM在实现AGI承诺的能力上正在接近一个瓶颈。如果属实,它将验证那些长期以来主张,若不超越现有LLM架构,当前AI局限性无法克服的科学家和行业专家的论点。
对路由的强调也呼应了20世纪90年代在AI领域获得 prominence 的“元推理”概念。这种范式围绕着“关于推理的推理”这一思想——例如,决定为优化复杂任务值得投入多少计算精力。这种方法侧重于将问题分解为更小、更专业的组件,在转向通用LLM之前占据主导地位。
GPT-5的发布,其重点在于内部委托而非开创性的新算法,可能标志着AI演进的一个重大转折点。虽然这可能不意味着完全回归旧范式,但它可能预示着一个新时代的到来:对日益复杂和难以捉摸模型的无情追求,将让位于通过严谨的工程方法创建更可控AI系统的重点。最终,这一转变可能是一个有力的提醒,即人工智能的最初愿景不仅是复制人类智能,更是加深我们对其的理解。