CNCF busca estándares de K8s para cargas de trabajo AI/ML portables

Thenewstack

Imagine un mundo donde sus sofisticados modelos de inteligencia artificial y cargas de trabajo de inferencia pudieran migrar sin problemas entre cualquier entorno de nube, público o privado, sin necesidad de ajustar una sola línea de código. Esta ambiciosa visión es precisamente lo que la Cloud Native Computing Foundation (CNCF) está trabajando para hacer realidad, basándose en su exitoso legado de estandarización de las implementaciones de Kubernetes.

La CNCF, el organismo de código abierto responsable de fomentar las tecnologías nativas de la nube, está embarcándose en una nueva iniciativa para certificar las distribuciones de Kubernetes específicamente por su capacidad para ejecutar cargas de trabajo de IA. Este esfuerzo refleja el exitoso programa de conformidad de Kubernetes, que ya ha asegurado la interoperabilidad en más de 100 distribuciones diferentes de Kubernetes. Así como una carga de trabajo que se ejecuta en un entorno conforme a Kubernetes puede moverse sin esfuerzo a otro, el objetivo es lograr la misma fluidez para las aplicaciones de IA.

“Queremos hacer lo mismo para las cargas de trabajo de IA”, explicó Chris Aniszczyk, CTO de la CNCF, durante los eventos KubeCon + CloudNativeCon en China y Japón. Enfatizó que lograr esto requerirá un conjunto definido de capacidades, API y configuraciones que un clúster de Kubernetes debe ofrecer, yendo más allá de la conformidad estándar existente. El objetivo final es establecer una “compatibilidad base” que abarque diversos entornos informáticos a nivel mundial. Aniszczyk reflexionó sobre el principio fundamental de la CNCF: crear una infraestructura que opere uniformemente en cada nube, ya sea pública o privada.

La compleja tarea de definir estos requisitos específicos de IA está siendo asumida por un grupo de trabajo recién formado dentro de SIG-Architecture de Kubernetes, o Grupo de Interés Especial para la Arquitectura. La misión explícita de este grupo es “definir un conjunto estandarizado de capacidades, API y configuraciones que un clúster de Kubernetes debe ofrecer para ejecutar de manera confiable y eficiente las cargas de trabajo de IA/ML [aprendizaje automático]”, como se detalla en su página de GitHub. Más allá de este alcance inmediato, el trabajo también sentará las bases para una definición más amplia de “Conformidad de IA Nativa de la Nube”, que abarcará otros aspectos críticos de la computación nativa de la nube, como la telemetría, el almacenamiento y la seguridad. Los principales actores de la industria, incluidos Google y Red Hat, están contribuyendo activamente con recursos a este proyecto fundamental.

En su esencia, la iniciativa busca “comoditizar” las plataformas de cargas de trabajo de IA/ML, haciéndolas lo más intercambiables y accesibles posible. Las discusiones iniciales entre los colaboradores del grupo de trabajo destacan la esperanza de reducir significativamente la necesidad de soluciones personalizadas “hágalo usted mismo” y parches específicos de frameworks que a menudo se requieren para implementar cargas de trabajo de IA/ML hoy en día. Esta estandarización promete agilizar el desarrollo y la implementación, liberando a los ingenieros para que se centren en la innovación en lugar de en los matices de la infraestructura.

El grupo de trabajo ya ha identificado tres tipos principales de cargas de trabajo de IA particularmente adecuadas para Kubernetes, cada una con requisitos de plataforma distintos. Para el entrenamiento y ajuste a gran escala de modelos de IA, las capacidades esenciales incluyen el acceso a aceleradores de alto rendimiento (como GPU), redes de alto rendimiento y conscientes de la topología de red, “programación en grupo” para coordinar múltiples tareas relacionadas y acceso escalable a vastos conjuntos de datos. La inferencia de alto rendimiento, donde los modelos entrenados se utilizan para hacer predicciones, exige acceso a aceleradores, gestión de tráfico sofisticada y métricas estandarizadas para monitorear la latencia y el rendimiento. Finalmente, para las tuberías de MLOps (Operaciones de Aprendizaje Automático), el enfoque está en un sistema robusto de trabajos por lotes, un sistema de colas para gestionar la contención de recursos, acceso seguro a servicios externos como el almacenamiento de objetos y los registros de modelos, y soporte confiable para Custom Resource Definitions (CRDs) y operadores, que extienden las capacidades de Kubernetes.

El borrador del documento que describe estos requisitos ya distingue entre prácticas recomendadas y necesidades absolutas. Muchas de estas características obligatorias se basan en mejoras recientes de Kubernetes diseñadas específicamente para aplicaciones de IA. Por ejemplo, un sistema compatible con Kubernetes AI debe admitir la Asignación Dinámica de Recursos (DRA), una característica completamente disponible en la próxima versión de Kubernetes 1.34. DRA ofrece un control más flexible y granular sobre los recursos, lo que permite una asignación precisa de hardware especializado como las GPU. De manera similar, el soporte para la extensión de inferencia de la API de Gateway de Kubernetes es obligatorio, ya que especifica patrones de enrutamiento de tráfico esenciales para los modelos de lenguaje grandes (LLM). Además, el escalador automático del clúster, que ajusta dinámicamente el tamaño del clúster, debe ser capaz de escalar grupos de nodos según las solicitudes de tipos de aceleradores específicos.

Un grupo separado, aún sin nombre, supervisará el proceso de acreditación. El programa de certificación contará con un sitio web público que enumerará todas las distribuciones de Kubernetes que superen con éxito las pruebas de conformidad, que se realizarán anualmente. Cada distribución certificada tendrá una lista de verificación de conformidad completa basada en YAML disponible públicamente. La CNCF planea presentar oficialmente la guía de conformidad finalizada en KubeCon + CloudNativeCon North America 2025, programada del 10 al 13 de noviembre en Atlanta.