OpenAIのエージェントへの野望:数学スキルから汎用AIへ

Techcrunch

2022年、ハンター・ライトマンが研究者としてOpenAIに入社した時、彼は史上最速で成長した製品の一つであるChatGPTの急速な台頭を目の当たりにしました。その間、ライトマンはMathGenとして知られるチームの一員として、OpenAIのモデルが高校の数学コンテストで優れるように教えるという、基礎的な課題に静かに取り組んでいました。この努力は、OpenAIが業界をリードするAI推論モデルの追求、すなわち人間のように複雑なコンピュータータスクを実行できるAIエージェントに必要な中核技術にとって、極めて重要であることが証明されるでしょう。

「私たちはモデルの数学的推論能力を向上させようとしていました。当時はまだあまり得意ではありませんでしたから」と、ライトマンはMathGenの初期の仕事について振り返りながら説明しました。OpenAIの現在のAIシステムは、「ハルシネーション」や非常に複雑なタスクでの困難といった課題に直面しているものの、その数学的推論能力は大幅に進歩しました。OpenAIのモデルの一つは最近、トップレベルの高校生を対象とした権威ある国際数学オリンピックで金メダルを獲得しました。OpenAIは、これらの強化された推論能力が様々な領域で応用され、最終的に同社が長年構想してきた汎用エージェントへの道を開くと信じています。

控えめな研究プレビューからバイラルな消費者製品へと「偶然の産物」として登場したChatGPTとは異なり、OpenAIのAIエージェント開発は、意図的で数年がかりの取り組みです。OpenAIのCEOであるサム・アルトマンは、2023年の同社初の開発者会議で次のように述べています。「最終的には、コンピューターに欲しいものを尋ねるだけで、それがすべてのタスクを代行してくれます。これらの機能はAI分野でエージェントとして語られることが多いです。その利点は計り知れないでしょう。」

エージェントがアルトマンの野心的なビジョンを完全に実現するかどうかはまだ分かりません。しかし、OpenAIは2024年秋に最初のAI推論モデルであるo1をリリースし、大きな影響を与えました。その1年足らず後、このブレークスルーを支えた21人の基礎研究者は、シリコンバレーで最も引く手あまたの才能となりました。特筆すべきは、マーク・ザッカーバーグがMetaの新しい超知能に特化した部門のために、o1の研究者5人を1億ドルを超える報酬パッケージで引き抜いたことです。そのうちの一人、趙盛佳(Shengjia Zhao)は、最近Meta Superintelligence Labsのチーフサイエンティストに任命されました。

OpenAIの推論モデルとエージェントの台頭は、強化学習(RL)として知られる機械学習の訓練技術と深く関連しています。RLは、シミュレートされた環境内でのAIモデルの選択の正しさについてフィードバックを提供します。この技術は何十年も前から使用されており、2016年にGoogle DeepMindのAlphaGo(RLで訓練されたAIシステム)が囲碁の世界チャンピオンを破って世界的な注目を集めた際に有名になりました。AlphaGoの勝利の前後、OpenAIの初期の従業員の一人であるアンドレイ・カルパシーは、RLをどのように活用してコンピューターを使用できるAIエージェントを作成できるかを探求し始めました。しかし、OpenAIが必要なモデルと訓練技術を開発するには何年もかかりました。

2018年までに、OpenAIはGPTシリーズ初の大型言語モデルを開発し、膨大なインターネットデータで事前学習させました。GPTモデルはテキスト処理に優れ、最終的にChatGPTへとつながりましたが、当初は基本的な数学に苦戦していました。2023年に「Q*」、後に「Strawberry」と内部で呼ばれる重要なブレークスルーが起こりました。これは、大規模言語モデル(LLM)、強化学習、そして「テスト時計算」と呼ばれる技術を組み合わせることを含んでいました。後者は、モデルに追加の時間と処理能力を与え、問題を計画し、解決し、回答を提供する前にその手順を検証することを可能にしました。この革新は、「思考の連鎖(CoT)」と呼ばれる新しいアプローチも可能にし、未知の数学の問題に対するAIのパフォーマンスを劇的に向上させました。

「モデルが推論を始めるところを見ることができました」と、研究者のエル・キシュキーは述べました。「間違いに気づいて後戻りしたり、イライラしたりしていました。まるで人間の思考を読んでいるようでした。」個々の技術は全く新しいものではありませんでしたが、OpenAIによるそれらの独自の組み合わせが直接Strawberryを生み出し、それが今度はo1への道を開きました。同社は、これらのAI推論モデルに内在する計画および事実確認能力が、AIエージェントを動かす上で計り知れない価値があることをすぐに認識しました。「私は数年間頭を悩ませていた問題を解決しました」と、ライトマンは語り、それを自身の研究キャリアで最もエキサイティングな瞬間の1つだと表現しました。

AI推論モデルの登場により、OpenAIはAIを改善するための2つの新しい道筋を特定しました。それは、後訓練中により多くの計算能力を適用することと、回答を生成する際により多くの時間と処理能力をモデルに与えることです。「OpenAIは、企業として、現状だけでなく、物事がどのようにスケールしていくかについて多くを考えています」とライトマンは説明しました。2023年のStrawberryのブレークスルーを受けて、OpenAIは研究者のダニエル・セルサムが率いる「エージェント」チームを設立し、この新しいパラダイムを推進しました。このチームの作業は最終的に、OpenAIの共同創設者であるイリヤ・サツケバー、チーフリサーチオフィサーのマーク・チェン、チーフサイエンティストのヤクブ・パホツキを含む主要なリーダーと共に、より大きなo1推論モデルプロジェクトに統合されました。

o1の開発には、貴重なリソース、主に人材とGPUを転用する必要がありました。OpenAIの歴史を通じて、研究者はしばしばリソースの交渉を強いられ、ブレークスルーを示すことがそれらを確保する実証済みの方法でした。「OpenAIの核心的な要素の1つは、研究におけるすべてがボトムアップであることです」とライトマンは述べています。「私たちが[o1の]証拠を示したとき、会社は『これは理にかなっている、推進しよう』という感じでした。」一部の元従業員は、スタートアップの人工汎用知能(AGI)開発という包括的な使命が、AI推論モデルにおけるブレークスルーを達成する上で重要な要因であったと示唆しています。即時の製品化よりも可能な限り最も賢いAIモデルの開発を優先することで、OpenAIはo1に多額の投資をすることができました。これは競合するAIラボでは常に享受できる贅沢ではありません。この新しい訓練方法を受け入れるという決定は先見の明があることが証明されました。2024年後半までに、いくつかの主要なAIラボは、従来の事前訓練スケーリングによって作成されたモデルからの収益逓減を観察し始めました。今日、AI分野の勢いの大部分は、推論モデルの進歩から生まれています。

AIの「推論」という概念は、哲学的な問いを提起します。多くの点で、AI研究の究極の目標は人間の知能を模倣することです。o1のリリース以来、ChatGPTのユーザーエクスペリエンスには、「考える」や「推論する」といった、より人間らしい機能が組み込まれています。OpenAIのモデルが本当に推論しているのかと尋ねられたとき、エル・キシュキーはコンピュータサイエンスの観点から答えました。「私たちは、モデルに効率的に計算を消費して答えを得る方法を教えています。だから、もしそのように定義するなら、はい、それは推論です。」ライトマンは、人間の脳と直接比較するのではなく、モデルの結果に焦点を当てています。「モデルが難しいことをしているのであれば、それを実行するために必要な推論の近似を行っているのです」と彼は言いました。「私たちはそれを推論と呼ぶことができます。なぜなら、それが推論の痕跡のように見えるからです。しかし、それはすべて、本当に強力で多くの人々に役立つAIツールを作ろうとするための代理です。」OpenAIの研究者たちは、推論の定義について潜在的な意見の相違があることを認めていますが(実際、批判者も現れています)、モデルの能力が最も重要であると主張しています。他のAI研究者も概ね同意しています。非営利団体AI2のAI研究者であるネイサン・ランバートは、AI推論モデルを飛行機に例え、どちらも自然(それぞれ人間の推論と鳥の飛行)に触発された人間が作ったシステムであるが、全く異なるメカニズムで動作していると指摘しています。これは、それらの有用性や同様の結果を達成する能力を損なうものではありません。OpenAI、Anthropic、Google DeepMindのAI研究者による最近のポジションペーパーでは、AI推論モデルはまだ完全に理解されていないため、さらなる研究が必要であると共通して合意されました。それらの内部で何が起こっているかを明確に述べるには、まだ時期尚早かもしれません。

現在、市場に出回っているAIエージェントは、コーディングのような明確に定義され、検証可能な領域で最高のパフォーマンスを発揮します。OpenAIのCodexエージェントは、ソフトウェアエンジニアの簡単なコーディングタスクを支援し、AnthropicのモデルはCursorやClaude CodeのようなAIコーディングツールで人気を博し、ユーザーが料金を支払う最初のAIエージェントの一部となっています。しかし、OpenAIのChatGPTエージェントやPerplexityのCometのような汎用AIエージェントは、人々が自動化したいと願う多くの複雑で主観的なタスクに依然として苦戦しています。これらのツールをオンラインショッピングや長期駐車場の検索に使用しようとすると、処理に時間がかかり、「くだらない間違い」を犯すことがよくあります。

これらの初期のエージェントシステムは、間違いなく改善されるでしょう。しかし、研究者はまず、より主観的なタスクを完了するために、基盤となるモデルをより良く訓練する方法を解決しなければなりません。「機械学習における多くの問題と同様に、これはデータの問題です」と、ライトマンは主観的領域におけるエージェントの限界についてコメントしました。「私が今本当に興奮している研究の一部は、検証可能性の低いタスクで訓練する方法を見つけることです。私たちはこれらのことを行うためのいくつかの手がかりを持っています。」IMOモデルとo1の両方に貢献したOpenAIの研究者ノアム・ブラウンは、OpenAIが、AIモデルに容易に検証できないスキルを教えることを可能にする新しい汎用RL技術を持っていると説明しました。このアプローチは、IMOで金メダルを獲得したモデルを構築する上で鍵となりました。OpenAIのIMOモデルは、新しいAIシステムであり、複数のエージェントを生成し、最適な答えを選択する前に様々なアイデアを同時に探索します。このマルチエージェントのアプローチは勢いを増しており、GoogleとxAIは最近、同様の技術を採用した最先端のモデルをリリースしました。「これらのモデルは数学においてより有能になり、他の推論分野でもより有能になると思います」とブラウンは述べました。「進歩は信じられないほど速いです。それが減速する理由は何もないと思います。」

これらの進歩は、OpenAIの次期GPT-5モデルの性能向上につながる可能性があります。OpenAIは、GPT-5が開発者と消費者の両方にエージェントを動かす最高のAIモデルを提供することで、競合他社に対する優位性を確立することを望んでいます。生の実力だけでなく、同社は製品の使用を簡素化することも目指しています。エル・キシュキーは、OpenAIがユーザーの意図を直感的に理解し、特定の設定を必要としないAIエージェントの開発を目指していると指摘しました。目標は、特定のツールをいつ使用すべきか、そして与えられたタスクに対してどれくらいの時間「推論」すべきかを知るAIシステムを構築することです。

これらのアイデアは、究極のChatGPTの姿を描いています。それは、あなたの好みも直感的に理解しながら、インターネット上のあらゆるタスクをあなたのために実行できるエージェントです。このビジョンは、今日のChatGPTからの大きな進化を表しており、OpenAIの研究はこの方向に明確に進んでいます。数年前、OpenAIが間違いなくAI業界をリードしていた一方で、同社は現在、手ごわい競合他社に直面しています。重要な問題は、OpenAIがエージェントによる未来を実現できるかどうかだけでなく、Google、Anthropic、xAI、Metaなどのライバルが先にそれを達成する前にできるかどうかです。

OpenAIのエージェントへの野望:数学スキルから汎用AIへ - OmegaNext AIニュース