La CNCF vise des standards K8s pour les charges de travail IA/ML portables
Imaginez un monde où vos modèles d’intelligence artificielle sophistiqués et vos charges de travail d’inférence pourraient migrer de manière transparente entre n’importe quel environnement cloud, public ou privé, sans qu’une seule ligne de code ne nécessite d’ajustement. Cette vision ambitieuse est précisément ce que la Cloud Native Computing Foundation (CNCF) s’efforce de réaliser, en s’appuyant sur son héritage réussi de standardisation des déploiements Kubernetes.
La CNCF, l’organisme open source responsable du développement des technologies cloud-natives, se lance dans une nouvelle initiative visant à certifier les distributions Kubernetes spécifiquement pour leur capacité à exécuter des charges de travail d’IA. Cet effort reflète le programme de conformité Kubernetes, qui a rencontré un vif succès et a déjà assuré l’interopérabilité entre plus de 100 distributions Kubernetes différentes. Tout comme une charge de travail exécutée dans un environnement conforme à Kubernetes peut être déplacée sans effort vers un autre, l’objectif est d’atteindre la même fluidité pour les applications d’IA.
« Nous voulons faire la même chose pour les charges de travail d’IA », a expliqué Chris Aniszczyk, CTO de la CNCF, lors des événements KubeCon + CloudNativeCon en Chine et au Japon. Il a souligné que pour y parvenir, il sera nécessaire de définir un ensemble de capacités, d’API et de configurations qu’un cluster Kubernetes doit offrir, allant au-delà de la conformité standard existante. L’objectif ultime est d’établir une « compatibilité de base » qui s’étende à divers environnements informatiques dans le monde. Aniszczyk a réfléchi au principe fondamental de la CNCF : créer une infrastructure qui fonctionne uniformément dans chaque cloud, qu’il soit public ou privé.
La tâche complexe de définition de ces exigences spécifiques à l’IA est entreprise par un groupe de travail nouvellement formé au sein du SIG-Architecture de Kubernetes, ou Groupe d’Intérêt Spécial pour l’Architecture. La mission explicite de ce groupe est de « définir un ensemble standardisé de capacités, d’API et de configurations qu’un cluster Kubernetes doit offrir pour exécuter de manière fiable et efficace les charges de travail IA/ML [apprentissage automatique] », comme détaillé sur sa page GitHub. Au-delà de cette portée immédiate, le travail jettera également les bases d’une définition plus large de la « Conformité IA Cloud Native », englobant d’autres aspects critiques de l’informatique cloud native, tels que la télémétrie, le stockage et la sécurité. Des acteurs majeurs de l’industrie, notamment Google et Red Hat, contribuent activement en ressources à ce projet essentiel.
Au cœur de l’initiative, il s’agit de « commodifier » les plateformes de charges de travail IA/ML, en les rendant aussi interchangeables et accessibles que possible. Les premières discussions entre les contributeurs du groupe de travail soulignent l’espoir de réduire considérablement le besoin de solutions personnalisées « faites maison » et de correctifs spécifiques aux frameworks souvent nécessaires pour déployer des charges de travail IA/ML aujourd’hui. Cette standardisation promet de rationaliser le développement et le déploiement, libérant les ingénieurs pour qu’ils se concentrent sur l’innovation plutôt que sur les nuances de l’infrastructure.
Le groupe de travail a déjà identifié trois types principaux de charges de travail d’IA particulièrement bien adaptés à Kubernetes, chacun avec des exigences de plateforme distinctes. Pour l’entraînement et le réglage à grande échelle des modèles d’IA, les capacités essentielles incluent l’accès à des accélérateurs haute performance (comme les GPU), des réseaux à haut débit et conscients de la topologie du réseau, la « planification de groupe » (gang scheduling) pour coordonner plusieurs tâches connexes, et un accès évolutif à de vastes ensembles de données. L’inférence haute performance, où les modèles entraînés sont utilisés pour faire des prédictions, exige l’accès à des accélérateurs, une gestion sophistiquée du trafic et des métriques standardisées pour surveiller la latence et le débit. Enfin, pour les pipelines MLOps (Machine Learning Operations), l’accent est mis sur un système robuste de travaux par lots, un système de files d’attente pour gérer la contention des ressources, un accès sécurisé aux services externes tels que le stockage d’objets et les registres de modèles, et un support fiable pour les Custom Resource Definitions (CRD) et les opérateurs, qui étendent les capacités de Kubernetes.
Le projet de document décrivant ces exigences distingue déjà entre les pratiques recommandées et les nécessités absolues. Bon nombre de ces fonctionnalités obligatoires s’appuient sur des améliorations récentes de Kubernetes conçues spécifiquement pour les applications d’IA. Par exemple, un système conforme à Kubernetes AI doit prendre en charge l’Allocation Dynamique des Ressources (DRA), une fonctionnalité entièrement disponible dans la prochaine version 1.34 de Kubernetes. La DRA offre un contrôle plus flexible et granulaire sur les ressources, permettant une allocation précise du matériel spécialisé comme les GPU. De même, la prise en charge de l’extension d’inférence de l’API Gateway de Kubernetes est obligatoire, car elle spécifie les modèles de routage de trafic essentiels pour les grands modèles de langage (LLM). De plus, l’autoscaler de cluster, qui ajuste dynamiquement la taille du cluster, doit être capable de dimensionner les groupes de nœuds en fonction des demandes de types d’accélérateurs spécifiques.
Un groupe distinct, dont le nom n’a pas encore été défini, supervisera le processus d’accréditation. Le programme de certification comprendra un site web public répertoriant toutes les distributions Kubernetes qui réussiront les tests de conformité, lesquels seront effectués annuellement. Chaque distribution certifiée disposera d’une liste de contrôle de conformité complète, basée sur YAML, accessible au public. La CNCF prévoit de dévoiler officiellement le guide de conformité finalisé lors de la KubeCon + CloudNativeCon North America 2025, qui se tiendra du 10 au 13 novembre à Atlanta.