GPT-5的AGI主张受质疑：AI是否已触及瓶颈？

OpenAI最新的旗舰模型GPT-5，正被公司誉为迈向“通用人工智能（AGI）”的“重要一步”。AGI是一种假想状态，在此状态下，AI系统能在大多数具有经济价值的任务中自主超越人类。然而，尽管有这些宏伟的宣称，OpenAI首席执行官萨姆·奥特曼对GPT-5进步的描述却显得异常低调。他强调了编码能力的提升、“幻觉”（AI生成虚假信息）的减少，以及在与其他软件集成时更好地遵循多步骤指令。据报道，该模型也更安全，不那么“谄媚”，旨在不为取悦用户而欺骗或提供有害信息。

奥特曼认为，与GPT-5互动的感觉类似于与任何给定主题的博士级专家交谈。然而，这种断言立即被模型无法确定自身输出准确性的根本缺陷所削弱。例如，它在准确绘制北美地图等基本任务上表现挣扎。此外，GPT-5无法从自身经验中学习，在涵盖各种科学和学术主题的挑战性基准测试“人类的最后一次考试”中，准确率仅达到42%。这一表现略低于埃隆·马斯克xAI公司的竞争模型Grok 4，后者据报道达到了44%。

GPT-5背后的主要技术创新似乎是“路由器”的引入。该组件能智能地决定在响应查询时调用哪个内部GPT模型，本质上是确定答案所需的计算量，并根据先前选择的反馈来优化此过程。路由器可以委托给先前的领先GPT模型，或者一个名为“GPT-5 Thinking”的全新专用“更深层推理”模型。这个新模型的确切性质仍不清楚，因为OpenAI并未表明它依赖于新颖的算法或新数据集，考虑到大多数可用数据已被广泛利用。这导致人们猜测GPT-5 Thinking可能只是一个精巧的机制，用于多次提示现有模型，从而更努力地产生更好的结果。

当今强大AI系统的基础在于大型语言模型（LLM），这是一种由谷歌研究人员于2017年开发的人工智能架构。这些模型擅长于识别大量词语序列中的复杂模式，这些模式构成了人类语言的基石。通过在海量文本上进行训练，LLM学习预测给定词语序列最可能的延续，从而使其能够生成连贯且与上下文相关的用户响应。这种方法以ChatGPT等系统为例，随着LLM接触到越来越大的数据集而稳步改进。从根本上说，这些模型像一个复杂的查找表，将用户的刺激（提示）映射到最合适的响应。令人惊奇的是，这样一个看似简单的概念，使得LLM在灵活性和可用性方面超越了许多其他AI系统，尽管并非总是在绝对准确性或可靠性方面。

尽管LLM具有令人印象深刻的能力，但它们是否能真正实现AGI仍悬而未决。批评者质疑它们真正的推理能力、以人类方式理解世界的能力，或从经验中学习以改进自身行为的技能——所有这些都被广泛认为是AGI的必要要素。在此期间，一个蓬勃发展的AI软件公司行业已经出现，致力于“驯服”通用LLM，使其在特定应用中更可靠、更可预测。这些公司通常采用复杂的提示工程技术，有时多次查询模型，甚至同时使用多个LLM，调整指令直到达到预期结果。在某些情况下，它们会通过专业附加组件“微调”LLM以增强其有效性。

OpenAI直接内置于GPT-5中的新路由器，与这一行业趋势相符。如果成功，这种内部优化可以减少供应链下游对外部AI工程师的需求，并可能通过在没有额外修饰的情况下提供更好的结果，使GPT-5对用户来说更具成本效益。然而，这一战略举措也可能被视为一种隐含的承认，即LLM在实现AGI承诺的能力上正在接近一个瓶颈。如果属实，它将验证那些长期以来主张，若不超越现有LLM架构，当前AI局限性无法克服的科学家和行业专家的论点。

对路由的强调也呼应了20世纪90年代在AI领域获得 prominence 的“元推理”概念。这种范式围绕着“关于推理的推理”这一思想——例如，决定为优化复杂任务值得投入多少计算精力。这种方法侧重于将问题分解为更小、更专业的组件，在转向通用LLM之前占据主导地位。

GPT-5的发布，其重点在于内部委托而非开创性的新算法，可能标志着AI演进的一个重大转折点。虽然这可能不意味着完全回归旧范式，但它可能预示着一个新时代的到来：对日益复杂和难以捉摸模型的无情追求，将让位于通过严谨的工程方法创建更可控AI系统的重点。最终，这一转变可能是一个有力的提醒，即人工智能的最初愿景不仅是复制人类智能，更是加深我们对其的理解。

GPT-5的AGI主张受质疑：AI是否已触及瓶颈？

相关文章

GPT-5能耗巨大：OpenAI对其能耗保持沉默

OpenAI GPT-5 达“博士级”：科技巨头AI竞赛白热化

OpenAI GPT-5发布：AI热潮与AGI之路的试金石