Meta AIチーフのルカン氏:LLMは単純すぎ、実世界AIに注力すべき
急速に進化する人工知能(AI)の分野では、多くの人々の注目が大規模言語モデル(LLM)に集まっています。しかし、MetaのチーフAIサイエンティストであるヤン・ルカン氏は、焦点の転換を提唱しており、高度なAIの未来はLLMの現在の能力を超えたところにあると断言しています。
ディープラーニングの先駆者であるルカン氏は、LLMに対する関心の低下を公に表明しており、それらを「推論を見る単純な方法」と見なしています。データの増加と計算能力の向上によるLLMの漸進的な改善を認めつつも、AIにおける真に革新的な進歩は、以下の4つの重要な領域から生まれると信じています。
物理世界の理解:現実世界の物理学や相互作用のニュアンスを直感的に把握できる機械の開発。
永続的な記憶:長期にわたりアクセス可能な記憶能力を持つAIシステムの構築。
推論:現在の初歩的な推論形式を超え、より洗練された直感的な方法へと移行すること。
計画:人間の認知プロセスを反映し、特定の目標を達成するための一連の行動をAIが計画できるようにすること。
ルカン氏は、現在LLMに魅了されているテクノロジーコミュニティが、今後5年以内にこれらの「難解な学術論文」に注目するようになるだろうと示唆しています。
トークンベースシステムの限界
ルカン氏によると、現在のLLMの根本的な限界は、そのトークンベースのアプローチに起因しています。トークンは、通常、限られた離散的な可能性のセット(単語やサブワード単位など)を表し、言語には適しています。しかし、物理世界は「高次元で連続的」です。
人間は幼少期に「世界モデル」を獲得し、因果関係を直感的に理解できるようになります。例えば、異なる点から物体を押すと異なる結果が得られるといったことです。離散的なトークンを予測するように設計されたシステムで、この物理学の直感的な理解を再現することは非常に困難です。ピクセルレベルでビデオのような高次元の連続データを予測することでAIを訓練しようとする試みは、予測不可能な詳細を考案するために莫大なリソースを消費し、ほとんど非効率であることが証明されています。現実の多くの側面は、本質的に粒度レベルで予測不可能であり、ピクセルレベルの再構築は無駄な努力となります。
共同埋め込み予測アーキテクチャ(JAPA)の導入
ルカン氏は、解決策は共同埋め込み予測アーキテクチャ(JAPA)にあると提唱しています。詳細なピクセルレベルの再構築を試みる生成モデルとは異なり、JAPAはデータの「抽象的な表現」を学習することに焦点を当てています。
JAPAでは、入力(例えば、ビデオセグメントや画像)はエンコーダによって処理され、抽象的な表現が作成されます。入力の変換されたバージョンもエンコードされます。システムはその後、生の入力空間ではなく、この「表現空間」(または潜在空間)内で予測を行います。これは、より抽象的で意味的な方法で「空白を埋める」ことに似ています。このアプローチは、システムが入力Kを無視して情報のない表現を生成する可能性がある「崩壊問題」を克服するのに役立ちます。
推論と計画が可能なエージェントシステムにとって、JAPAは強力なメカニズムを提供します。JAPAベースの予測器は、世界の現在の状態を観察し、「仮説的な行動が与えられた場合の次の状態」を予測することができます。これにより、望ましい結果を達成するための一連の行動を計画することが可能になり、人間の認知プロセスを反映します。ルカン氏はこれを、多数のトークンシーケンスを生成し、その後最良のものを選択する現在の「エージェント推論システム」と対比させています。彼は、その指数関数的なスケーリングのため、短いシーケンス以外では「全く絶望的」な方法であると考えています。真の推論は、抽象的な精神状態で行われるのであり、「トークンを蹴り回す」ことではないと彼は主張します。
具体的な例として、Metaのビデオ共同埋め込み予測アーキテクチャ(VJA)プロジェクトがあります。短いビデオセグメントで訓練されたVJAは、マスクされたバージョンから完全なビデオの表現を予測でき、ビデオが「物理的に可能か不可能か」を検出する能力を示しています。予測誤差を測定することで、「異常な」イベントを特定でき、まるで赤ちゃんが重力に逆らう物体に驚くのと似ています。
高度機械知能(AMI)への道
ルカン氏は、人間知能の専門的な性質を認識し、汎用人工知能(AGI)よりも「高度機械知能(AMI)」という用語を好んでいます。彼は、小規模なAMIの「良い手応え」が3年から5年以内に達成できる可能性があり、人間レベルのAIが10年以内に登場する可能性もあると見積もっています。しかし、彼は過去の過剰な楽観主義に警告を発し、単にLLMをスケールアップしたり、何千ものトークンシーケンスを生成したりすることが人間レベルの知能につながるという考えを「ナンセンス」だと一蹴しています。
重要なボトルネックはデータです。LLMは、数十万年分の読書に相当する膨大な量のテキストで訓練されています。対照的に、4歳の子どもはわずか16,000時間で視覚を通じて同量のデータを処理しており、視覚学習の計り知れない効率性を示しています。この差異は、AGIがテキストからの訓練だけで達成できないことを強調しています。ルカン氏によると、AMIを解き放つ鍵は、ディープニューラルネットワークやトランスフォーマーを可能にした基礎的なブレークスルーと同様に、JAPAアーキテクチャを大規模に訓練するための「良いレシピ」を発見することです。
AIの現在の影響と将来の課題
将来のパラダイムに焦点を当てているにもかかわらず、ルカン氏はAIがすでに計り知れないほどのポジティブな影響を与えていることを強調しています。科学と医学の分野では、AIは薬物設計、タンパク質フォールディング、医療画像処理を変革し、MRIスキャン時間を短縮し、腫瘍の事前スクリーニングを行っています。自動車分野では、AI搭載の運転支援システムや緊急ブレーキシステムが衝突を大幅に減少させています。AIは主に「強力なツール」として機能し、さまざまな領域で人間の生産性と創造性を向上させています。
しかし、広範な展開には、「精度と信頼性」の面で課題があります。特に、自動運転のように間違いが致命的になり得るアプリケーションでは顕著です。ルカン氏は、AIが基本的な技術ではなく、信頼性の高い統合においてしばしば失敗すると指摘しています。それでも、エラーが壊滅的でない多くのアプリケーション(例:エンターテイメント、教育)では、「ほとんどの場合正しい」AIはすでに非常に有益です。
ディープフェイクのようなAIの「暗い側面」については、ルカン氏は楽観的な見方を示しています。Metaの経験では、LLMの利用可能性にもかかわらず、悪意のある生成コンテンツの著しい増加は見られないとのことです。彼は「誤用に対する対抗策は、より良いAIである」と信じています。それは、常識、推論能力、そして自身の信頼性を評価する能力を備えたシステムです。
オープンソースとグローバルな協力の不可欠な役割
ルカン氏の哲学の核心は、オープンソースAIプラットフォームの絶対的な必要性です。彼は、「良いアイデアは多くの人々の相互作用とアイデアの交換から生まれる」と強調しており、単一のエンティティがイノベーションを独占することはないと述べています。PyTorchやLLaMAに代表されるMetaのオープンソースへのコミットメントは、スタートアップの活気あるエコシステムを育成し、グローバルな協力を可能にしています。
オープンソースAIは、以下の理由から将来にとって極めて重要です。
AIアシスタントの多様性:AIがほぼすべてのデジタルインタラクションを仲介する未来において、少数の企業が多様なAIアシスタントを提供することはできません。多様な言語、文化、価値観システムを理解するためには、多様なアシスタントが必要です。
分散トレーニング:世界のすべてのデータを単一のエンティティが収集することはありません。将来のモデルは、分散型でトレーニングされるオープンソースの基盤モデルとなり、グローバルなデータセンターがデータのサブセットにアクセスして「コンセンサスモデル」をトレーニングします。
独自データでのファインチューニング:LLaMAのようなオープンソースモデルは、企業がダウンロードして独自のデータでファインチューニングすることを可能にし、データをアップロードする必要がありません。これにより、専門的な垂直アプリケーションやスタートアップのビジネスモデルがサポートされます。
ハードウェア:次なるAI革命を推進する
AMIと洗練された世界モデルへの道のりは、ますます増大する計算能力を必要とします。GPUは指数関数的な進歩を遂げていますが、抽象空間での推論の計算コストを考えると、継続的なハードウェア革新が不可欠です。
ルカン氏は、近い将来の汎用AIタスクにおけるニューロモーフィックハードウェア、光コンピューティング、量子コンピューティングに対しては、デジタル半導体産業の深い定着を理由に、概ね懐疑的です。しかし、スマートグラスにおける低電力視覚処理など、特定の「エッジコンピューティング」シナリオにおいては、プロセッサ・イン・メモリ(PIM)やアナログ/デジタルプロセッサおよびメモリ技術に可能性を見出しています。このアプローチは、網膜のような生物学的システムを模倣しています。網膜は、センサーで膨大な視覚データを処理し、送信前に圧縮します。これは、計算だけでなく、データ移動も多くの場合、最もエネルギーを消費することを示しています。
最終的にルカン氏は、AIシステムが人間の能力を拡張する「強力なツール」として機能し、人間を置き換えるものではない未来を思い描いています。将来のAIとの関係は、人間が「超知能を持つ仮想の人々のスタッフ」を指揮する、命令の関係になるでしょう。オープンな研究とオープンソースプラットフォームによって推進されるこの協力的な未来は、グローバルな貢献を活用して、日常生活を向上させる多様なAIアシスタントを生み出すでしょう。