インドのAI戦略:グローバルモデルとローカルイノベーションの融合

Livemint

Microsoftがロシア支援のインドの精製会社Nayara Energyへのクラウドサービス提供を最近停止したことは、外国の技術インフラへの過度な依存がもたらすリスクという、極めて重要な脆弱性を浮き彫りにしました。この事件は、インドが独自の基盤となる人工知能能力を開発するという戦略的な動きを加速させました。この取り組みは、グローバルサウスの他の国々にとっての青写真となる可能性があります。

インドは、22の公用語と数百の方言を含むその深い言語の多様性のため、AI開発において独自の課題に直面しています。この多言語環境をナビゲートできるAIシステムを構築することは、途方もない作業です。しかし、実用的な二重戦略が浮上しています。インドのスタートアップ企業は、即座のアプリケーションのためにグローバルなオープンソースモデルを微調整すると同時に、独自の基盤モデルを一から painstakinglyに構築しています。

ベンガルールで開催されたGoogle I/O Connectイベントでは、この階層的なアプローチが明らかになりました。Sarvam AIのようなスタートアップは、Googleのオープンソース大規模言語モデル(LLM)であるGemmaを使用して改良された多言語モデル、Sarvam-Translateを展示しました。同様に、CoRoverは、インド鉄道ケータリング観光公社(IRCTC)を含む公共サービスを提供するチャットボットBharatGPTをデモンストレーションしました。これも微調整されたモデルに基づいています。Sarvam、Soket AI、Gnaniが、103億ルピーのIndiaAIミッションの下でインドの主権LLMを開発する任務を負った4つのスタートアップのうちの1つであることを考えると、Googleが支援するこれらの取り組みは逆説的に見えるかもしれません。

この二重アプローチの根拠は必要性にあります。競争力のあるAIモデルを一から開発することは、膨大なデータセット、高度な計算インフラストラクチャ、および広範な研究を必要とするリソース集約型です。インドは、その進化するテックエコシステムと緊急の市場需要を抱えているため、孤立して構築する余裕はありません。代わりに、既存の大規模言語モデルを微調整し、焦点を絞ったローカルデータで専門化することは、今日の現実世界の問題に対処するための実用的な道筋を提供します。これにより、スタートアップ企業は初期展開をブートストラップし、ユーザーフィードバックを収集し、ドメイン固有の専門知識を開発しながら、真に独立したモデルに必要なデータパイプラインとインフラストラクチャを並行して構築することができます。

Soket AIがIIT GandhinagarやIISc Bangaloreなどのインドの主要機関と提携して主導するオープンソースイニシアチブであるProject EKAは、主権への野心を具体的に示しています。完全にインド製のコード、インフラストラクチャ、データパイプラインでゼロから設計されたEKAは、数ヶ月以内に70億パラメータのモデルを提供することを目指しており、より大規模な1200億パラメータのモデルも計画されています。このイニシアチブは、農業、法律、教育、防衛などの重要な分野に焦点を当て、インドのGPUクラウドでトレーニングが行われ、結果として得られるモデルがオープンソースであることを保証します。しかし、Soket AIの共同創設者Abhishek Upperwalは、初期展開にGemmaを使用することは一時的な措置であり、長期的な依存ではなく、「準備ができたらブートストラップして主権スタックに切り替える」方法であると明確にしています。CoRoverのBharatGPTも同様の軌跡をたどっており、現在の政府アプリケーションに微調整されたモデルを活用しながら、インドのデータセットを使用して独自の基盤LLMを開発し、現在の展開をサービス提供とデータセット作成の両方の手段として扱っています。

インドにとって、独自のAI能力を開発することは国家の誇りを超えたものです。それは、外国のモデルでは適切に対処できない問題を解決することにあります。地方のマハラシュトラ州に住む、ヒンディー語しか理解できない出稼ぎ労働者が、西洋の医学的仮定に基づいた、医師のAI支援による英語でのX線説明を理解しようとしている状況を想像してみてください。このようなシナリオは、文化的、生理的、文脈的な根拠における根本的な不一致を浮き彫りにします。インドは、マイティリー語の地元の医学用語を理解し、州固有の灌漑スケジュールに合わせた作物アドバイスを提供し、地域差のある15の言語で市民の問い合わせを処理できるAIツールを必要としています。これらは、エラーが生計、公共サービス、健康結果に直接影響を与える可能性のある、影響の大きい日常的なユースケースです。オープンモデルの微調整は、これらの緊急のニーズに即座の解決策を提供すると同時に、真に主権的なAIスタックの基盤を築きます。

IndiaAIミッションは、増大する地政学的懸念に対する戦略的な対応です。AIシステムがガバナンス、教育、農業、防衛に不可欠になるにつれて、外国のプラットフォームへの依存は、Nayara Energyの事件が示したように、データ漏洩と制御の喪失のリスクをもたらします。さらに、ほとんどのグローバルAIモデルは、英語が主流の西洋のデータセットでトレーニングされているため、インドの言語の多様性や、その法的判断や農業慣行の複雑さに対処するには不十分です。

AIにおける完全な自給自足は、グローバルな大国を含め、どの国にとっても実現不可能ですが、インドのアプローチは、選択肢を最大化し、依存関係を減らすことにあります。技術政策の専門家であるAmlan Mohantyは、主権はインフラを管理し、条件を設定することにあると強調しています。彼は、インド政府の実用的で技術に依存しない姿勢は、高品質のインド語データセットの不足、計算能力、インドに合わせたすぐに利用できるオープンソースの代替品の不足といった制約によって形成されていると指摘しています。

実際、特にインドの言語における高品質なトレーニングデータの不足は、依然として大きな障害となっています。Google DeepMind IndiaのManish Guptaは、10万人以上の話者がいる72のインドの言語には、事実上デジタルプレゼンスがないと指摘しています。インド科学研究所(IISc)と協力したGoogleのProject Vaaniのようなイニシアチブは、以前はデジタルデータセットがなかった言語に対しても、インドの数百の地区で大量の音声サンプルを収集することで、このギャップを埋めることを目指しています。このデータは、Googleの多言語転送能力と相まって、リソースの少ない言語でのパフォーマンスを向上させ、インドのスタートアップが利用するGemmaのようなモデルに組み込まれています。

インドの階層化された戦略は、同様の制約に苦しむグローバルサウスの他の国々にとって、説得力のあるロードマップを提供します。それは、膨大な計算予算や成熟したデータエコシステムを最初から必要とせずに、地域の言語、文脈、価値観を反映したAIシステムを構築するための青写真を提供します。2026年までに、EKAのようなインドの主権LLMが実用化されると予想されており、この二重トラックは収束し、自国製のシステムがブートストラップされたモデルを徐々に置き換えることになります。

しかし、インドのスタートアップがグローバルなテック大手のオープンツールに基づいて構築しているにもかかわらず、長期的な依存の問題は依然として残ります。アーキテクチャ、トレーニング技術、インフラストラクチャサポートの制御は、依然として大部分が大手テック企業にあります。Googleはデータセットをオープンソース化し、IndiaAIミッションのスタートアップと提携していますが、そのようなオープン性の条件は常に左右対称であるとは限りません。インドの主権への野心は、最終的にはこれらのオープンモデルを乗り越える能力にかかっています。インドとグローバルサウスの他の国々にとっての重要な問題は、アクセス条件が変更されるか、機会の窓が閉じる前に、この借りたサポートを完全な主権AIインフラストラクチャに変換できるかどうかです。