AIの自己改善:Metaの目標、リスク、そして未来への影響

Technologyreview

マーク・ザッカーバーグは最近、Metaの大胆なビジョンを概説しました。それは、人間の知性を超える人工知能を実現することです。彼の戦略は2つの重要な要素にかかっています。1つは、Metaスーパーインテリジェンスラボの研究者に9桁の報酬を提供して、トップレベルの人間的才能を引き付けること。もう1つは、自己改善型のAIシステムを開発し、それらが自律的に性能を向上させ、より高いレベルに到達できるようにすることです。

AIの自己改善という概念は、他の画期的な技術とは一線を画しています。CRISPRが自身のDNAターゲティングを洗練できないのとは異なり、また核融合炉が商業的実現可能性への経路を独立して考案できないのとは異なり、大規模言語モデル(LLM)は、自身が動作するコンピューターチップを最適化し、他のLLMを効率的にトレーニングし、さらにはAI研究のための新しいアイデアを生成する能力を示しています。実際、これらの分野での進歩はすでに明らかです。

ザッカーバーグは、そのような進歩が人類を退屈な作業から解放し、個人が輝かしい超効率的な人工の仲間とともに、最も崇高な目標を追求できる未来を構想しています。しかし、この自己改善には固有のリスクも伴います。AI研究非営利団体METRの政策ディレクターであるクリス・ペインターは、これを強調しています。AIが自身の能力を急速に加速させた場合、ハッキング、兵器の設計、人々の操作において、急速に熟練する可能性があるとペインターは警告します。一部の研究者は、この正のフィードバックループが「知能爆発」につながり、AIを人間の理解をはるかに超えるものにする可能性があるとさえ仮説を立てています。しかし、悲観的な見方を採用しなくても、自己改善型AIの深刻な影響を認識する必要があるでしょう。OpenAI、Anthropic、Googleなどの主要なAI開発者は、自動化されたAI研究を安全フレームワークに組み込み、化学兵器やサイバーセキュリティなどのより認識されているリスクと並べて分類しています。ブリティッシュコロンビア大学のコンピューターサイエンス教授であり、Google DeepMindのシニアリサーチアドバイザーであるジェフ・クルーンは、この道が「強力なAIへの最速のルート」であり、間違いなく「私たちが最も考えるべき重要なこと」であると強調しています。逆に、クルーンは計り知れない潜在的な利点も指摘しています。人間だけの創意工夫では、最終的に癌や気候変動のような巨大な課題に取り組むためにAIが必要とするイノベーションを考案できないかもしれません。

当面の間、人間の創意工夫がAIの進歩の主要な原動力であり続けており、Metaの研究者誘致への多額の投資がそれを裏付けています。しかし、AIはいくつかの重要な方法で自身の進化にますます貢献しています。

LLMがAI開発にもたらす最も即時的かつ広範な貢献の一つは、特にコーディング支援を通じた生産性の向上です。Claude CodeやCursorなどのツールは、AI業界全体で広く採用されています。GoogleのCEOであるスンダー・ピチャイは2024年10月に、同社の新しいコードの4分の1がAIによって生成されたと述べ、Anthropicは従業員によるClaude Codeの広範な内部使用を記録しています。前提は単純です。生産性の高いエンジニアは、新しいAIシステムをより迅速に設計、テスト、デプロイできます。しかし、実際の生産性向上については議論の余地があります。METRの最近の研究では、経験豊富な開発者がAIコーディングアシスタントを使用した場合、大規模なコードベースでのタスク完了に約20%長くかかったことが判明しました。これは、主観的に効率的だと感じたにもかかわらずです。このことは、実際の利点を確かめるために、主要なAIラボ内でより厳密な評価が必要であることを示唆しています。

生産性向上を超えて、AIは自身の基盤となるインフラストラクチャの最適化においても重要な役割を果たしています。LLMのトレーニングは非常に遅く、複雑な推論モデルでは1つの応答を生成するのに数分かかることがあり、これは開発における重大なボトルネックです。スタンフォード大学のコンピューターサイエンス助教授であり、Google DeepMindのシニアスタッフサイエンティストであるアザリア・ミルホセイニは、「AIをより速く実行できれば、より多くのイノベーションを起こせる」と述べています。この目的のために、ミルホセイニとGoogleの共同研究者は2021年に、コンピューターチップコンポーネントの配置を効率化するために最適化できるAIシステムを開発しました。この設計は、それ以来GoogleのカスタムAIチップの複数世代に組み込まれています。最近では、ミルホセイニはLLMを「カーネル」(行列乗算などのチップ操作を制御する低レベル関数)の記述に適用し、汎用LLMでさえ人間が設計したバージョンを上回るカーネルを生成できることを発見しました。Googleの別の場所では、AlphaEvolveシステムがGemini LLMを利用して、GoogleのLLMインフラストラクチャのさまざまな部分を最適化するためのアルゴリズムを繰り返し考案し、改良しています。このシステムは、データセンター向けのGoogleの計算リソースを0.7%削減し、カスタムチップ設計を改善し、Geminiのトレーニング時間を1%高速化するなど、具体的な成果をもたらしました。一見するとわずかに見えますが、これらのパーセンテージは、Googleの規模の企業にとって、時間、費用、エネルギーの大幅な節約につながり、より広範に適用されればさらに大きな利益が得られる可能性があります。

AIの自己改善におけるもう一つの重要な領域は、トレーニングプロセスの自動化にあります。LLMは膨大な量のデータを必要とし、トレーニングのあらゆる段階でコストがかかります。専門分野では、実世界のデータが不足している場合があります。人間のフィードバックによる強化学習(人間がLLMの応答を評価してモデルを改良する)のような手法は効果的ですが、遅くて費用がかかります。LLMはこれらのギャップをますます埋めています。十分な例が与えられれば、LLMは実データが不足しているドメインに対してもっともらしい合成データを生成できます。また、強化学習において「審査員」として機能し、モデルの出力を自ら評価することもできます。これは、Anthropicの著名な「憲法AI」フレームワークの核心的な教義であり、あるLLMが別のLLMを訓練して危害を少なくするのに役立ちます。多段階の計画を実行する必要があるAIエージェントの場合、タスクの成功例はまれです。ミルホセイニとスタンフォード大学の同僚は、LLMエージェントが段階的な計画を生成し、LLM審査員が各段階の有効性を評価し、その後、これらの洗練された段階に基づいて新しいLLMエージェントがトレーニングされるという手法を開拓しました。このアプローチはデータ制限を効果的に排除し、モデルが実質的に無制限のトレーニング経験を生成することを可能にします。

さらに、今日のLLMのコアアーキテクチャであるTransformer(2017年に人間の研究者によって提案されたもの)は人間によって設計されたものですが、LLMエージェントの出現により、全く新しい設計のフロンティアが開かれました。エージェントは外部世界と対話するためのツールと、その使用方法に関する指示を必要とするため、これらの要素の最適化は効果にとって非常に重要です。クルーンは、人間がまだすべての可能性を徹底的に探求していないため、この分野はAIにとって「低い位置にある果実」を提供すると指摘しています。Sakana AIの研究者と協力して、クルーンは「ダーウィン・ゲーデル・マシン」を開発しました。これは、自身のプロンプト、ツール、およびコードを繰り返し修正してタスクパフォーマンスを向上させることができるLLMエージェントです。このシステムは、自己修正によってスコアを向上させただけでなく、初期バージョンでは考案できなかったような新しい修正を発見し、真の自己改善ループに入りました。

最後に、AIの自己改善の最も野心的な形態は、おそらくAI研究そのものを進歩させることでしょう。多くの専門家は、「研究のセンス」—トップ科学者が有望な新しい問題や方向性を特定する能力—がAIにとって独特の課題であると強調しています。しかし、クルーンはこの課題が誇張されている可能性があると考えています。彼とSakana AIの研究者は、「AIサイエンティスト」と呼ばれるエンドツーエンドのシステムを開発しています。このシステムは自律的に科学文献を検索し、独自の質問を立て、実験を行い、その結果を草稿にまとめます。今年初めにこのシステムが執筆した論文(新しいニューラルネットワーク訓練戦略を詳述したもの)は、匿名で国際機械学習会議(ICML)のワークショップに提出され、最終的にその戦略が機能しなかったにもかかわらず、査読者によって採択されました。別の例では、AIサイエンティストが考案した研究アイデアが、後に人間の研究者によって独立して提案され、大きな関心を集めました。クルーンはこの瞬間を「AIサイエンティストのGPT-1の瞬間」になぞらえ、数年以内にはトップの査読付き会議やジャーナルで論文を発表し、独創的な科学的発見をすると予測しています。

AIの自己改善に対するこのような熱意を考えると、AIが自身の開発に貢献する度合いは加速する一方である可能性が高いと思われます。マーク・ザッカーバーグのビジョンは、多くの領域で人間の能力を凌駕する超知能モデルが差し迫っていることを示唆しています。しかし、実際には、自己改善型AIの全体的な影響は依然として不確実です。GoogleのAlphaEvolveがGeminiのトレーニングを1%高速化しましたが、プロジェクトリーダーのマテイ・バログによると、このフィードバックループはまだ「非常に遅い」とのことです。Geminiのようなモデルのトレーニングにはかなりの時間がかかるため、「好循環」はまだ始まったばかりです。

超知能の提唱者たちは、Geminiの各後続バージョンが自身のトレーニングをさらに加速すれば、これらの改善が複合的に作用し、より高性能な世代がさらに大きな高速化を達成し、必然的に知能爆発につながると主張します。しかし、この見方は、イノベーションは時間とともに難しくなる傾向があるという原則を見落としがちです。科学の初期段階では、発見は容易に訪れます。しかし、ディープラーニングが成熟するにつれて、わずかな改善でさえ、人間とAIの協力者の両方から大幅な努力を必要とする可能性があります。AIシステムが人間レベルの研究能力を達成する頃には、最も簡単な進歩はすでに達成されていると考えることもできます。

したがって、AIの自己改善が実世界に与える影響を判断することは、非常に困難な課題であり、最先端のAIシステムが通常、最先端のAI企業に独占されているという事実によって、外部からの測定が困難であるという点がさらに複雑にしています。しかし、外部の研究者は努力を続けています。例えば、METRは、最先端のAIシステムが独立して実行できるタスクを人間が完了するのにかかる時間を測定することで、AI開発全体のペースを追跡しています。彼らの発見は驚くべきものです。2019年にGPT-2がリリースされて以来、AIが独立して完了できるタスクの複雑さは7ヶ月ごとに倍増しています。2024年以降、この倍増時間はわずか4ヶ月に短縮されており、AIの進歩が加速していることを強く示唆しています。研究者やハードウェアへの投資の増加などの要因も貢献していますが、AIの自己改善も重要な役割を果たしている可能性は十分にあります。Forethoughtの研究者であるトム・デイヴィッドソンは、少なくともしばらくの間は、AIの進歩が加速する期間を予想しています。METRの作業は、「低い位置にある果実」の効果が現在、人間の研究者を妨げていないこと、あるいは投資の増加がどんな減速も効果的に相殺していることを示しています。もしAIが研究者の生産性を著しく向上させたり、研究の一部を自ら担うようになったりすれば、このバランスは間違いなく加速的な進歩へと傾くでしょう。デイヴィッドソンが結論付ける重要な問題は、「それがどれくらい続くのか」です。