CNCF strebt K8s-Standards für portable KI/ML-Workloads an
Stellen Sie sich eine Welt vor, in der Ihre ausgeklügelten Modelle der künstlichen Intelligenz und Inferenz-Workloads nahtlos zwischen jeder Cloud-Umgebung, ob öffentlich oder privat, migriert werden könnten, ohne dass eine einzige Codezeile angepasst werden müsste. Diese ehrgeizige Vision ist genau das, woran die Cloud Native Computing Foundation (CNCF) arbeitet, aufbauend auf ihrem erfolgreichen Erbe der Standardisierung von Kubernetes-Bereitstellungen.
Die CNCF, die Open-Source-Organisation, die für die Förderung von Cloud-nativen Technologien verantwortlich ist, startet eine neue Initiative zur Zertifizierung von Kubernetes-Distributionen speziell hinsichtlich ihrer Fähigkeit, KI-Workloads auszuführen. Diese Bemühung spiegelt das äußerst erfolgreiche Kubernetes-Konformitätsprogramm wider, das bereits die Interoperabilität von über 100 verschiedenen Kubernetes-Distributionen sichergestellt hat. So wie ein Workload, der in einer Kubernetes-konformen Umgebung läuft, mühelos in eine andere verschoben werden kann, ist das Ziel, dieselbe Fluidität für KI-Anwendungen zu erreichen.
„Wir wollen dasselbe für KI-Workloads tun“, erklärte Chris Aniszczyk, CTO der CNCF, während der KubeCon + CloudNativeCon-Veranstaltungen in China und Japan. Er betonte, dass dies einen definierten Satz von Fähigkeiten, APIs und Konfigurationen erfordern wird, die ein Kubernetes-Cluster bieten muss, über die bestehende Standardkonformität hinaus. Das ultimative Ziel ist es, eine „Basiskompatibilität“ zu schaffen, die verschiedene Computing-Umgebungen weltweit umspannt. Aniszczyk reflektierte über das Gründungsprinzip der CNCF: eine Infrastruktur zu schaffen, die in jeder Cloud, ob öffentlich oder privat, einheitlich funktioniert.
Die komplexe Aufgabe der Definition dieser KI-spezifischen Anforderungen wird von einer neu gebildeten Arbeitsgruppe innerhalb der SIG-Architecture von Kubernetes, oder Special Interest Group for Architecture, übernommen. Die explizite Mission dieser Gruppe ist es, „einen standardisierten Satz von Fähigkeiten, APIs und Konfigurationen zu definieren, die ein Kubernetes-Cluster bieten muss, um KI/ML [maschinelles Lernen]-Workloads zuverlässig und effizient auszuführen“, wie auf ihrer GitHub-Seite detailliert beschrieben. Über diesen unmittelbaren Rahmen hinaus wird die Arbeit auch die Grundlage für eine breitere Definition der „Cloud Native AI Conformance“ legen, die andere kritische Aspekte des Cloud-nativen Computings umfasst, wie Telemetrie, Speicherung und Sicherheit. Große Branchenakteure, darunter Google und Red Hat, tragen aktiv Ressourcen zu diesem zentralen Projekt bei.
Im Kern zielt die Initiative darauf ab, KI/ML-Workload-Plattformen zu „kommodifizieren“, sie so austauschbar und zugänglich wie möglich zu machen. Frühe Diskussionen unter den Mitarbeitern der Arbeitsgruppe unterstreichen die Hoffnung, den Bedarf an „Do-it-yourself“-Benutzerlösungen und frameworkspezifischen Patches, die heute oft für die Bereitstellung von KI/ML-Workloads erforderlich sind, erheblich zu reduzieren. Diese Standardisierung verspricht, die Entwicklung und Bereitstellung zu optimieren und Ingenieure zu befreien, sich auf Innovationen statt auf Infrastrukturdetails zu konzentrieren.
Die Arbeitsgruppe hat bereits drei primäre Arten von KI-Workloads identifiziert, die besonders gut für Kubernetes geeignet sind, jede mit unterschiedlichen Plattformanforderungen. Für das groß angelegte Training und Fine-Tuning von KI-Modellen sind wesentliche Fähigkeiten der Zugang zu Hochleistungsbeschleunigern (wie GPUs), Hochdurchsatz- und netzwerktopologiebewusste Netzwerke, „Gang Scheduling“ zur Koordinierung mehrerer verwandter Aufgaben und skalierbarer Zugang zu riesigen Datensätzen. Hochleistungs-Inferenz, bei der trainierte Modelle zur Vorhersage verwendet werden, erfordert Zugang zu Beschleunigern, ausgeklügeltes Verkehrsmanagement und standardisierte Metriken zur Überwachung von Latenz und Durchsatz. Schließlich liegt der Fokus bei MLOps (Machine Learning Operations)-Pipelines auf einem robusten Batch-Job-System, einem Warteschlangensystem zur Verwaltung von Ressourcenkonflikten, sicherem Zugang zu externen Diensten wie Objektspeicher und Modellregistern sowie zuverlässiger Unterstützung für Custom Resource Definitions (CRDs) und Operatoren, die die Fähigkeiten von Kubernetes erweitern.
Das Entwurfsdokument, das diese Anforderungen umreißt, unterscheidet bereits zwischen empfohlenen Praktiken und absoluten Notwendigkeiten. Viele dieser obligatorischen Funktionen bauen auf jüngsten Verbesserungen von Kubernetes auf, die speziell für KI-Anwendungen entwickelt wurden. Zum Beispiel muss ein Kubernetes-KI-konformes System die Dynamic Resource Allocation (DRA) unterstützen, eine Funktion, die in der kommenden Kubernetes 1.34-Version vollständig verfügbar ist. DRA bietet eine flexiblere und granularere Kontrolle über Ressourcen, was eine präzise Zuweisung spezialisierter Hardware wie GPUs ermöglicht. Ebenso ist die Unterstützung der Kubernetes Gateway API Inference-Erweiterung obligatorisch, da sie Verkehrsrouting-Muster spezifiziert, die für große Sprachmodelle (LLMs) unerlässlich sind. Darüber hinaus muss der Cluster-Autoscaler, der die Clustergröße dynamisch anpasst, in der Lage sein, Knotengruppen basierend auf Anfragen für bestimmte Beschleunigertypen zu skalieren.
Eine separate, noch zu benennende Gruppe wird den Akkreditierungsprozess überwachen. Das Zertifizierungsprogramm wird eine öffentliche Website umfassen, die alle Kubernetes-Distributionen auflistet, die die Konformitätstests erfolgreich bestehen, welche jährlich durchgeführt werden. Jede zertifizierte Distribution wird eine umfassende, YAML-basierte Konformitäts-Checkliste öffentlich zugänglich haben. Die CNCF plant, den finalisierten Konformitätsleitfaden offiziell auf der KubeCon + CloudNativeCon North America 2025, die vom 10. bis 13. November in Atlanta stattfindet, vorzustellen.