OpenAI的智能体雄心:从数学能力到通用AI的飞跃

Techcrunch

2022年,当亨特·莱特曼(Hunter Lightman)作为研究员加入OpenAI时,他见证了ChatGPT的迅速崛起,这是历史上增长最快的产品之一。与此同时,莱特曼所在的MathGen团队正在悄然攻克一项基础性挑战:教会OpenAI的模型在高中数学竞赛中脱颖而出。这项努力将证明对OpenAI在AI推理模型领域(AI智能体执行复杂计算机任务所需的核心技术)的行业领先追求至关重要。

“我们当时正努力让模型在数学推理方面表现更好,而那时它们的表现并不理想,”莱特曼回顾MathGen的早期工作时解释道。尽管OpenAI当前的AI系统仍面临“幻觉”等挑战,并且难以处理高度复杂的任务,但它们的数学推理能力已显著提升。OpenAI的一个模型最近在国际数学奥林匹克竞赛(一项针对顶尖高中生的著名赛事)中获得了一枚金牌。OpenAI相信,这些增强的推理能力将跨越不同领域,最终为公司长期以来设想的通用智能体铺平道路。

与ChatGPT不同,后者是从一次低调的研究预览“意外”地发展成为一款病毒式消费产品,OpenAI对AI智能体的开发是一项深思熟虑、历时多年的努力。正如OpenAI首席执行官萨姆·奥特曼(Sam Altman)在公司2023年首次开发者大会上所说:“最终,你只需要向计算机提出你的需求,它就会为你完成所有这些任务。这些能力在AI领域常被称为智能体。其潜在的优势将是巨大的。”

智能体能否完全实现奥特曼的宏伟愿景仍有待观察。然而,OpenAI在2024年秋季发布其首个AI推理模型o1时,产生了重大影响。不到一年后,这项突破背后的21位基础研究人员已成为硅谷最炙手可热的人才。值得注意的是,马克·扎克伯格(Mark Zuckerberg)为Meta新成立的专注于超级智能的部门招募了五名o1研究人员,提供的薪酬方案超过1亿美元。其中一人,赵盛佳(Shengjia Zhao),最近被任命为Meta超智能实验室的首席科学家。

OpenAI推理模型和智能体的崛起与一种名为强化学习(RL)的机器学习训练技术紧密相关。RL在模拟环境中为AI模型提供关于其选择正确性的反馈。这项技术已使用了数十年,最著名的例子是2016年,谷歌DeepMind的AlphaGo(一个通过RL训练的AI系统)在围棋比赛中击败世界冠军,引起了全球关注。在AlphaGo取得胜利前后,OpenAI最早的员工之一安德烈·卡帕西(Andrej Karpathy)开始探索如何利用RL来创建能够使用计算机的AI智能体。然而,OpenAI花了数年时间才开发出必要的模型和训练技术。

到2018年,OpenAI在其GPT系列中率先推出了第一个大型语言模型,该模型通过海量互联网数据进行预训练。虽然GPT模型擅长文本处理,最终催生了ChatGPT,但它们最初在基础数学方面表现不佳。2023年,一项重大突破发生,内部代号为“Q*”,后来被称为“Strawberry”(草莓)。这涉及将大型语言模型(LLM)、强化学习和一种名为测试时计算(test-time computation)的技术结合起来。后者为模型提供了额外的时间和处理能力来规划和解决问题,并在提供答案之前验证其步骤。这项创新还催生了一种名为“思维链”(CoT)的新方法,该方法显著提高了AI在不熟悉的数学问题上的表现。

“我能看到模型开始推理了,”研究员埃尔·基什基(El Kishky)指出。“它会注意到错误并回溯,它会感到沮丧。这真的感觉像是在阅读一个人的思想。”虽然这些单独的技术并非全新,但OpenAI独特的组合直接促成了Strawberry的诞生,而Strawberry又为o1铺平了道路。公司很快意识到,这些AI推理模型固有的规划和事实核查能力对于驱动AI智能体而言是无价的。“我困扰了几年而无法解决的问题,我们解决了,”莱特曼回忆道,并称之为他研究生涯中最激动人心的时刻之一。

随着AI推理模型的出现,OpenAI确定了改进AI的两个新途径:在后训练期间应用更多的计算能力,以及在生成答案时给予模型更多的时间和处理能力。“OpenAI作为一家公司,不仅思考事物的现状,还思考它们将如何扩展,”莱特曼解释道。继2023年Strawberry突破之后,OpenAI成立了一个“智能体”团队,由研究员丹尼尔·塞尔萨姆(Daniel Selsam)领导,以推进这一新范式。该团队的工作最终整合到更大的o1推理模型项目中,主要领导者包括OpenAI联合创始人伊利亚·苏茨克维尔(Ilya Sutskever)、首席研究官马克·陈(Mark Chen)和首席科学家雅库布·帕乔基(Jakub Pachocki)。

开发o1需要转移宝贵的资源,主要是人才和GPU。在OpenAI的历史上,研究人员经常需要争取资源,而展示突破是确保资源的行之有效的方法。“OpenAI的核心组成部分之一是,研究中的一切都是自下而上的,”莱特曼说。“当我们展示[o1的]证据时,公司就说,‘这说得通,我们来推进它。’”一些前员工表示,这家初创公司开发通用人工智能(AGI)的总体使命是实现AI推理模型突破的关键因素。通过优先开发尽可能最智能的AI模型,而不是立即产品化,OpenAI能够对o1进行大量投资,这是竞争对手AI实验室并非总能负担得起的奢侈。事实证明,这项拥抱新训练方法的决定具有先见之明,因为到2024年末,几家领先的AI实验室开始观察到通过传统预训练扩展创建的模型回报递减。如今,AI领域的大部分发展势头都源于推理模型的进步。

AI“推理”的概念引发了哲学问题。在许多方面,AI研究的最终目标是模仿人类智能。自o1发布以来,ChatGPT的用户体验中融入了更多听起来像人类的特征,如“思考”和“推理”。当被问及OpenAI的模型是否真正进行推理时,埃尔·基什基从计算机科学的角度回答道:“我们正在教模型如何高效地消耗计算资源来获得答案。所以,如果你这样定义,是的,它在推理。”莱特曼则更关注模型的结果,而不是直接与人脑进行比较。“如果模型在做困难的事情,那么它就在做任何必要的推理近似,以便完成这些事情,”他说。“我们可以称之为推理,因为它看起来像是推理轨迹,但这都只是为了制造真正强大且对许多人有用的AI工具的替代品。”尽管OpenAI的研究人员承认他们对推理的定义可能存在分歧——事实上,批评者也已经出现——但他们认为模型的能力至关重要。其他AI研究人员也倾向于同意这一点。非营利组织AI2的AI研究员内森·兰伯特(Nathan Lambert)将AI推理模型比作飞机,指出两者都是受自然(分别是人类推理和鸟类飞行)启发而制造的人造系统,但它们通过完全不同的机制运作。这并没有削弱它们的实用性或实现类似结果的能力。OpenAI、Anthropic和谷歌DeepMind的AI研究人员最近的一份立场文件共同认为,AI推理模型尚未被完全理解,因此需要进一步研究。现在就明确它们内部发生了什么可能还为时过早。

目前,市面上的AI智能体在编码等定义明确、可验证的领域表现最佳。OpenAI的Codex智能体协助软件工程师完成简单的编码任务,而Anthropic的模型在Cursor和Claude Code等AI编码工具中广受欢迎,成为首批用户愿意付费的AI智能体。然而,通用AI智能体,如OpenAI的ChatGPT智能体和Perplexity的Comet,仍然难以处理许多人们希望自动化的复杂、主观任务。尝试使用这些工具进行在线购物或寻找长期停车位,往往会导致处理时间过长和“愚蠢的错误”。

这些早期的智能体系统无疑将会改进。然而,研究人员必须首先解决如何更好地训练底层模型来完成更多主观任务。“就像机器学习中的许多问题一样,这是一个数据问题,”莱特曼评论智能体在主观领域的局限性时说。“我现在真正兴奋的一些研究是弄清楚如何在较少可验证的任务上进行训练。我们在这方面有一些线索。”OpenAI研究员诺姆·布朗(Noam Brown)为IMO模型和o1都做出了贡献,他解释说OpenAI拥有新的通用强化学习技术,使他们能够教授AI模型不易验证的技能。这种方法是构建在IMO中获得金牌的模型的关键。OpenAI的IMO模型是一个更新的AI系统,它会生成多个智能体同时探索各种想法,然后选择最佳答案。这种多智能体方法正受到越来越多的关注,谷歌和xAI最近发布了采用类似技术的最新模型。“我认为这些模型在数学方面会变得更强大,我认为它们在其他推理领域也会变得更强大,”布朗说。“进展速度快得令人难以置信。我看不出有任何理由认为它会放缓。”

这些进展可能会带来OpenAI即将推出的GPT-5模型的性能提升。OpenAI希望GPT-5通过提供最好的AI模型来为开发者和消费者提供支持,从而确立其对竞争对手的统治地位。除了原始能力,公司还旨在简化产品使用。埃尔·基什基指出,OpenAI力求开发能够直观理解用户意图的AI智能体,从而无需特定设置。目标是构建能够知道何时使用特定工具以及需要“推理”多长时间来完成给定任务的AI系统。

这些想法描绘了终极ChatGPT的图景:一个能够为你完成互联网上任何任务,同时直观理解你偏好的智能体。这一愿景代表了当今ChatGPT的重大演变,OpenAI的研究无疑正朝着这个方向前进。虽然OpenAI几年前无疑引领了AI行业,但该公司现在面临着强大的竞争对手。关键问题不再仅仅是OpenAI能否实现其智能体未来,而是它能否在谷歌、Anthropic、xAI或Meta等竞争对手之前实现它。

OpenAI的智能体雄心:从数学能力到通用AI的飞跃 - OmegaNext AI 新闻