CNCF、ポータブルAI/MLワークロード向けK8s標準を追求
高度な人工知能モデルと推論ワークロードが、パブリッククラウドであろうとプライベートクラウドであろうと、コードの変更なしにどのクラウド環境間でもシームレスに移行できる世界を想像してみてください。この野心的なビジョンこそが、クラウドネイティブコンピューティング財団(CNCF)が、Kubernetesデプロイメントの標準化という成功した遺産に基づいて実現しようとしているものです。
クラウドネイティブ技術の育成を担当するオープンソース団体であるCNCFは、AIワークロードを実行する能力に特化してKubernetesディストリビューションを認証する新しいイニシアチブに着手しています。この取り組みは、すでに100を超える異なるKubernetesディストリビューション間での相互運用性を確保している、非常に成功したKubernetes適合性プログラムを反映しています。Kubernetes適合環境で実行されているワークロードが別の環境に簡単に移動できるのと同様に、AIアプリケーションでも同じ流動性を達成することが目標です。
「AIワークロードについても同じことをしたい」と、CNCFのCTOであるChris Aniszczykは、中国と日本で開催されたKubeCon + CloudNativeConイベントで説明しました。彼は、これを達成するためには、既存の標準適合性を超えて、Kubernetesクラスターが提供しなければならない一連の定義された機能、API、および構成が必要になると強調しました。究極の目標は、世界中の多様なコンピューティング環境にまたがる「ベースライン互換性」を確立することです。Aniszczykは、CNCFの基本原則について振り返りました。それは、パブリックであろうとプライベートであろうと、すべてのクラウドで均一に動作するインフラストラクチャを作成することです。
これらのAI固有の要件を定義するという複雑なタスクは、KubernetesのSIG-Architecture、またはアーキテクチャ特別利益団体内に新しく形成されたワーキンググループによって行われています。このグループの明確な使命は、そのGitHubページに詳述されているように、「KubernetesクラスターがAI/ML [機械学習] ワークロードを信頼性と効率性をもって実行するために提供しなければならない、標準化された一連の機能、API、および構成を定義する」ことです。この直接的な範囲を超えて、この作業は、テレメトリ、ストレージ、セキュリティなど、クラウドネイティブコンピューティングの他の重要な側面を網羅する、より広範な「クラウドネイティブAI適合性」定義の基礎も築きます。GoogleやRed Hatを含む主要な業界プレーヤーは、この重要なプロジェクトに積極的にリソースを貢献しています。
その核心において、このイニシアチブはAI/MLワークロードプラットフォームを「コモディティ化」し、可能な限り交換可能でアクセスしやすいものにすることを目指しています。ワーキンググループの貢献者間の初期の議論では、今日のAI/MLワークロードのデプロイにしばしば必要とされる「自作」のカスタムソリューションやフレームワーク固有のパッチの必要性を大幅に削減したいという期待が強調されています。この標準化は、開発とデプロイを合理化し、エンジニアがインフラストラクチャのニュアンスではなくイノベーションに集中できるようにすることを約束します。
ワーキンググループは、Kubernetesに特に適したAIワークロードの主要な3つのタイプをすでに特定しており、それぞれに異なるプラットフォーム要件があります。AIモデルの大規模なトレーニングとファインチューニングには、高性能アクセラレーター(GPUなど)へのアクセス、高スループットでネットワークトポロジーを認識するネットワーク、複数の関連タスクを調整するための「ギャングスケジューリング」、および広大なデータセットへのスケーラブルなアクセスが不可欠な機能です。トレーニングされたモデルを使用して予測を行う高性能推論には、アクセラレーターへのアクセス、洗練されたトラフィック管理、およびレイテンシーとスループットを監視するための標準化されたメトリックが求められます。最後に、MLOps(機械学習運用)パイプラインでは、堅牢なバッチジョブシステム、リソース競合を管理するためのキューイングシステム、オブジェクトストレージやモデルレジストリなどの外部サービスへの安全なアクセス、およびKubernetesの機能を拡張するカスタムリソース定義(CRD)とオペレーターの信頼できるサポートに焦点が当てられます。
これらの要件を概説するドラフト文書は、推奨されるプラクティスと絶対に必要なものとをすでに区別しています。これらの必須機能の多くは、AIアプリケーション向けに特別に設計されたKubernetesの最近の機能強化に基づいています。たとえば、Kubernetes AI準拠システムは、次期Kubernetes 1.34リリースで完全に利用可能になる機能である動的リソース割り当て(DRA)をサポートする必要があります。DRAは、リソースに対するより柔軟で詳細な制御を提供し、GPUなどの特殊なハードウェアの正確な割り当てを可能にします。同様に、Kubernetes Gateway API Inference拡張のサポートは必須であり、これは大規模言語モデル(LLM)に不可欠なトラフィックルーティングパターンを指定するためです。さらに、クラスターのサイズを動的に調整するクラスターオートスケーラーは、特定のアクセラレータータイプの要求に基づいてノードグループをスケーリングできる必要があります。
別のまだ名前が付けられていないグループが認定プロセスを監督します。認定プログラムには、毎年実施される適合性テストに合格したすべてのKubernetesディストリビューションをリストする公開ウェブサイトが含まれます。各認定ディストリビューションには、包括的なYAMLベースの適合性チェックリストが公開されます。CNCFは、2025年11月10日から13日にアトランタで開催されるKubeCon + CloudNativeCon North Americaで、最終的な適合性ガイドを正式に発表する予定です。