CNCF寻求K8s AI/ML工作负载可移植性标准
想象一个世界,您复杂的人工智能模型和推理工作负载可以无缝地在任何公共或私有云环境之间迁移,而无需调整一行代码。这个雄心勃勃的愿景正是云原生计算基金会(CNCF)正在努力实现的,它建立在成功标准化Kubernetes部署的遗产之上。
CNCF是负责培育云原生技术的开源组织,它正在启动一项新倡议,专门认证Kubernetes发行版运行AI工作负载的能力。这项努力与非常成功的Kubernetes一致性计划相呼美,该计划已经确保了100多种不同Kubernetes发行版之间的互操作性。就像在符合Kubernetes的环境中运行的工作负载可以轻松地迁移到另一个环境一样,目标是为AI应用程序实现相同的流畅性。
CNCF首席技术官Chris Aniszczyk在中国和日本的KubeCon + CloudNativeCon活动中解释说:“我们希望为AI工作负载做同样的事情。”他强调,实现这一点将需要一套明确的能力、API和配置,这是Kubernetes集群必须提供的,超越了现有的标准一致性。最终目标是建立一个涵盖全球多样化计算环境的“基线兼容性”。Aniszczyk回顾了CNCF的基本原则:创建在每个云(无论是公共还是私有)中统一运行的基础设施。
定义这些AI特定要求的复杂任务正在由Kubernetes的SIG-Architecture(或架构特别兴趣小组)内新成立的工作组承担。该小组的明确任务是“定义Kubernetes集群必须提供的一套标准化能力、API和配置,以可靠高效地运行AI/ML[机器学习]工作负载”,正如其GitHub页面所详述的。除了这个即时范围,这项工作还将为更广泛的“云原生AI一致性”定义奠定基础,涵盖云原生计算的其他关键方面,如遥测、存储和安全性。包括Google和Red Hat在内的主要行业参与者正在积极为这个关键项目贡献资源。
其核心是,这项倡议旨在“商品化”AI/ML工作负载平台,使其尽可能地可互换和可访问。工作组贡献者之间的早期讨论强调,希望显著减少当今部署AI/ML工作负载通常需要的“自行构建”自定义解决方案和特定框架补丁的需求。这种标准化有望简化开发和部署,让工程师能够专注于创新,而不是基础设施的细微差别。
工作组已经确定了三种特别适合Kubernetes的主要AI工作负载类型,每种类型都有独特的平台要求。对于AI模型的大规模训练和微调,基本能力包括访问高性能加速器(如GPU)、高吞吐量和网络拓扑感知的网络、“集群调度”以协调多个相关任务,以及对海量数据集的可扩展访问。高性能推理(使用训练好的模型进行预测)需要访问加速器、复杂的流量管理,以及用于监控延迟和吞吐量的标准化指标。最后,对于MLOps(机器学习操作)管道,重点是一个健壮的批处理作业系统、一个用于管理资源争用的队列系统、对外部服务(如对象存储和模型注册表)的安全访问,以及对自定义资源定义(CRD)和操作员的可靠支持,这些都扩展了Kubernetes的能力。
概述这些要求的草案文件已经区分了推荐实践和绝对必要条件。许多这些强制性功能都建立在最近为AI应用程序专门设计的Kubernetes增强功能之上。例如,符合Kubernetes AI的系统必须支持动态资源分配(DRA),这是即将发布的Kubernetes 1.34版本中完全可用的功能。DRA提供了更灵活和细粒度的资源控制,能够精确分配GPU等专用硬件。同样,支持Kubernetes Gateway API推理扩展是强制性的,因为它指定了大型语言模型(LLM)必不可少的流量路由模式。此外,动态调整集群大小的集群自动扩缩器必须能够根据对特定加速器类型的请求来扩缩节点组。
一个单独的、尚未命名的工作组将负责认证过程。认证计划将设有一个公开网站,列出所有成功通过一致性测试的Kubernetes发行版,这些测试将每年进行。每个认证的发行版都将有一个全面的、基于YAML的一致性清单公开可用。CNCF计划在定于2025年11月10日至13日在亚特兰大举行的KubeCon + CloudNativeCon北美大会上正式公布最终的一致性指南。