インドの二刀流AI戦略：オープンソース活用と国産開発

インドは、人工知能大国としての地位を確立するため、独自の方針を打ち出し、グローバルサウスの他国にとっての青写真となり得る実用的な二刀流戦略を採用している。このアプローチは、即時的な有用性と長期的な技術主権のバランスを取るものであり、先月、マイクロソフトがロシア支援のインドの精製会社ナヤラ・エナジーへのサービスを突然停止したような最近の地政学的出来事が、外国のデジタルインフラへの依存が持つ脆弱性を露呈させ、その必要性が強調されている。

インドのAIへの野心の核心は、今年7月にベンガルールで開催されたGoogleのI/O Connectイベントで顕著に示された。そこでは、インドの深い言語的多様性に合わせたAI能力の開発に重点が置かれた。22の公用語と数百の方言を持つインドにおいて、この多言語環境を効果的にナビゲートできるAIシステムを構築することは、手ごわい課題となっている。Sarvam AIのようなスタートアップは、この課題に対処するため、Googleのオープンソース大規模言語モデル（LLM）であるGemmaを微調整した多言語モデルSarvam-Translateを披露した。同様に、CoRoverはインド鉄道ケータリング観光公社（IRCTC）を含む公共サービス向けに設計されたチャットボットBharatGPTをデモンストレーションした。Googleはまた、Sarvam、Soket AI、Gnaniとの協業を発表し、これらすべてがGemmaを活用して次世代のインドAIモデルを構築している。

Gemmaのような外国で開発されたモデルへの依存は、特にこれらスタートアップのうち3社が、103億ルピー規模のIndiaAIミッションの下で、インドの基盤となる大規模言語モデルをゼロから構築することになっていることを考えると、逆説的に見えるかもしれない。この政府イニシアチブは、インドのデータ、言語、価値観に基づいて訓練された自国開発モデルを育成することを目的としている。しかし、既存のオープンソースモデルを使用するという決定は、実用主義に根ざしている。競争力のあるモデルをゼロから開発するには、リソースと時間が大量にかかる。インドの進化するコンピューティングインフラ、限られた高品質のトレーニングデータセット、そして差し迫った市場の要求を考慮すると、階層的なアプローチがより実行可能であることが証明されている。スタートアップは、オープンソースモデルを微調整して差し迫った現実世界の問題を解決しつつ、同時にデータパイプライン、ユーザーフィードバックループ、そして時間の経過とともに真に国産で独立したモデルを育成するために必要なドメイン固有の専門知識を構築している。微調整とは、事前学習済みの汎用LLMを特定の、しばしばローカルなデータセットに特化させることで、特定のコンテキストでのパフォーマンスを向上させることである。

この二重戦略は、Soket AIがIITガンディナガル、IITルールキー、IIScバンガロールと協力して主導するオープンソースのコミュニティ主導型プロジェクトであるProject EKAのようなイニシアチブによって例示されている。EKAはゼロから構築されており、そのコード、インフラ、データパイプラインは完全にインド国内で調達されている。70億パラメータのモデルが4〜5ヶ月以内に、続いて1200億パラメータのモデルが10ヶ月以内に登場すると予想されている。Soket AIの共同創設者であるAbhishek Upperwalは、このプロジェクトが農業、法律、教育、防衛の4つの重要なドメインに焦点を当てており、それぞれに政府の助言や公共部門のユースケースから得られた明確なデータセット戦略があると述べた。EKAの主要な特徴は、外国のインフラからの完全な独立性であり、トレーニングはインドのGPUクラウドで行われ、結果として得られるモデルはオープンソースとなる。しかし、実用的な動きとして、Soketは初期展開にGemmaを利用しており、Upperwalは、準備が整った時点でソブリンスタックにブートストラップし、移行することが目標であると明確にしている。

CoRoverのBharatGPTもこの二重アプローチを反映している。現在、微調整されたモデルで動作し、IRCTCや生命保険公社などの政府顧客に複数のインド言語で会話型AIサービスを提供している。創設者のAnkush Sabharwalは、公衆衛生、鉄道、宇宙などの重要なアプリケーション向けに迅速に微調整可能なベースモデルの必要性を強調するとともに、インドのデータセットを使用して独自の基盤LLMを開発していることを確認した。これらの展開は、サービス提供メカニズムとしてだけでなく、重要なデータ作成の手段としても機能し、今日アクセス性を向上させながら、将来のソブリンシステムへの橋渡しを築いている。Sabharwalは、プロセスはオープンソースモデルから始まり、それが微調整され、言語理解とドメイン関連性が強化され、最終的に独自のソブリンモデルに置き換えられると説明した。

テクノロジー政策専門家のアムラン・モハンティは、インドの戦略を「トレードオフの実験」と表現している。Gemmaのようなモデルを迅速な展開に活用しつつ、長期的な自律性の目標を放棄しないというものだ。このアプローチは、潜在的な敵対国への依存を減らし、文化的な表現を確保し、同盟国とのパートナーシップの信頼性を試すことを目指している。

インドにおける国産AIへの推進は、国家の誇りにとどまらない。それは、外国モデルがしばしば理解できない独自の課題に対処することにある。例えば、マハラシュトラ州の地方に住む移民が医療アドバイスを求める場合を考えてみよう。欧米のデータで訓練された外国のAIツールは、クパチーノ訛りの英語で説明を提供し、インド人の体型や現地の医療用語に合致しない医療上の仮定を用いるかもしれない。このような不一致は、現地の言語、文化的なニュアンス、生理学的文脈を理解するAIの極めて重要な必要性を浮き彫りにする。それは、ビハール州の医療従事者がマイティリ語の医療用語を理解するAIツールを必要とする場合であれ、マハラシュトラ州の農家が州固有の灌漑スケジュールに合わせた作物アドバイスを必要とする場合であれ、同様である。これらは、エラーが生活、公共サービス、健康結果に直接影響を及ぼす可能性のある、影響の大きい日常的なシナリオである。オープンモデルの微調整は、重要な即時解決策を提供すると同時に、真にソブリンなAIスタックに必要な不可欠なデータセット、ドメイン知識、およびインフラを構築するものである。

この二重戦略は、オープンツールを使用してソブリンな能力を有機的に構築する、最も迅速な道筋の一つと見なされている。Soket AIのAbhishek Upperwalは、これらを並行するが別個の糸と見なしている。一方は即時的な有用性に焦点を当て、もう一方は長期的な独立性に焦点を当てており、最終的には収束することを目指している。

IndiaAIミッションは、増大する地政学的な懸念に対する国家的な対応である。AIシステムが教育、農業、防衛、ガバナンスにとって不可欠になるにつれて、外国のプラットフォームへの過度な依存は、データ漏洩と制御喪失のリスクを高める。マイクロソフトが制裁のためにサービスを停止したナヤラ・エナジーの事件は、外国の技術プロバイダーがどのように地政学的なレバレッジポイントになり得るかを示す厳しい警告となった。同様に、過去の関税引き上げのような貿易政策の変更は、貿易と技術の絡み合った性質を強調している。

依存度を減らすことに加えて、ソブリンAIシステムは、インドの重要セクターが地域の価値観、規制の枠組み、言語的多様性を正確に反映するために不可欠である。ほとんどのグローバルAIモデルは、主に英語と西側のデータセットで訓練されており、インドの多言語人口や、インドの法的判決を解釈したり、特定の作物サイクルや農業慣行を考慮したりするなど、そのローカライズされたシステムの複雑さに対処するには不十分である。モハンティは、AI主権は孤立ではなく、インフラとアクセス条件の制御にあると強調する。彼は、チップからモデルに至るまでの完全な「フルスタック」の独立は、インドを含むいかなる国にとっても非現実的であり、グローバルな大国でさえ国内開発と戦略的パートナーシップのバランスをとっていると指摘する。したがって、インド政府は、インドのデータ、コンピューティング能力、およびインドに合わせたすぐに利用できるオープンソースの代替品の不足といった制約に動機付けられ、基盤となるAI要素に対して実用的で不可知論的な姿勢を維持している。

勢いがあるにもかかわらず、基本的な障害として、特にインドの言語における高品質な訓練データの不足が残っている。インドは膨大な言語的多様性を誇るが、これがAIシステムが学習するための十分なデジタルデータにはつながっていない。Google DeepMind Indiaのエンジニアリングディレクターであるマニシュ・グプタは、内部評価の結果、10万人以上の話者がいる72のインド言語には事実上デジタルプレゼンスがないことが明らかになったと述べた。これに対処するため、Googleはインド科学研究所（IISc）と協力してProject Vaaniを立ち上げ、インドの数百の地区から音声サンプルを収集することを目指している。第1段階では、80の地区から14,000時間以上の音声データが収集され、59の言語がカバーされた。そのうち15の言語には以前デジタルデータセットがなかった。続く段階では、このカバー範囲をインド全土に拡大している。グプタはまた、データクリーニングと品質の課題、そしてGoogleがこれらの現地言語能力を大規模モデルに統合するための努力を強調し、英語やヒンディー語のような広く話されている言語からのクロスリンガル転送を活用して、リソースの少ない言語でのパフォーマンスを向上させている。GoogleのGemma LLMはこれらのインド言語能力を組み込んでおり、IndiaAIミッションのスタートアップとの協力には、技術指導と収集されたデータセットの一般公開が含まれており、これは商業的および研究的双方の要請によるものである。インドは、多言語および低リソースAI開発のグローバルな試験場と見なされており、そのソリューションは他の言語的に複雑な地域にも拡大する可能性がある。

インドのソブリンAI構築者にとって、すぐに利用できる高品質のインド語データセットがないことは、モデル開発とデータセット作成が並行して進められなければならないことを意味する。インドの階層化された戦略 — 現在オープンモデルを使用し、同時にソブリンモデルを構築する — は、特にグローバルサウスにおいて、同様の制約に苦しむ他の国々に貴重なロードマップを提供する。これは、膨大な計算予算や成熟したデータエコシステムという贅沢さなしに、現地の言語、文脈、価値観を反映したAIシステムを開発しようとする国家に青写真を提供する。これらの国々にとって、微調整されたオープンモデルは、能力、包摂性、および制御への橋渡しとなる。

Soket AIのUpperwalが言うように、「AIにおけるフルスタック主権はマラソンであり、スプリントではない。1200億パラメータのモデルを真空中で構築するわけではない。迅速に展開し、迅速に学習し、準備が整ったときに移行することでそこにたどり着く。」シンガポール、ベトナム、タイなどの国々はすでに同様の方法を模索しており、Gemmaを使用して現地のLLM開発を始めている。2026年までに、EKAを含むインドのソブリンLLMが本番運用可能になると予想されており、この二重の道筋は収束し、自国開発システムがブートストラップされたモデルを徐々に置き換えていくと予測されている。

しかし、依存性の問題は依然として残る。MetaのLlamaやGoogleのGemmaのようなグローバルなテック巨人のオープンソースモデルであっても、アーキテクチャ、トレーニング技術、インフラサポートの制御は依然としてこれらの主要なプレイヤーに大きく依存している。Googleは音声データセットをオープンソース化し、インドのスタートアップと提携しているものの、そのようなオープネスの条件は常に対称的であるとは限らない。インドの主権への願望は、最終的にこれらのオープンモデルを超えるかどうかにかかっている。モハンティが警告するように、もし外国政府がテック巨人に対しアクセスや価格を変更するよう指示した場合、インドのイニシアチブに重大な影響を及ぼし、デジタル主権を危うくする可能性がある。今後数年間は、インドおよび他のグローバルサウス諸国が、アクセス条件が変更されるか、行動の窓が閉じる前に、この借り物のサポートを完全なソブリンAIインフラに転換できるかどうかが試されるだろう。

インドの二刀流AI戦略：オープンソース活用と国産開発

関連記事

Mozilla財団、AI時代に向けオープンウェブの使命を再定義

50万ドルハッキング事件：IDE拡張機能のセキュリティ脆弱性を暴露

AIボットが防御を突破、CodebergがDDoSのようなトラフィックで麻痺