RCE en Nvidia Triton Server: Fallos encadenados en el backend de Python al descubierto

Investigadores de seguridad han descubierto una serie de vulnerabilidades de alta gravedad en el Triton Inference Server de Nvidia que, al ser explotadas en secuencia, podrían conducir a un compromiso completo del sistema. Los fallos fueron detallados por Wiz Research, que los informó a Nvidia, lo que llevó a la publicación de parches.

La explotación exitosa de estas vulnerabilidades podría resultar en consecuencias significativas, incluyendo el robo de valiosos modelos de IA, la violación de datos sensibles, la manipulación de respuestas de modelos de IA y que los atacantes obtengan un punto de apoyo para adentrarse más en la red de una organización.

El Triton Inference Server de Nvidia es una plataforma de código abierto diseñada para ejecutar y servir eficientemente modelos de IA de varios marcos de IA principales a aplicaciones orientadas al usuario. Logra esta flexibilidad a través de diferentes "backends", cada uno adaptado para un marco específico. El backend de Python del servidor es particularmente versátil, no solo soporta modelos basados en Python, sino que también es utilizado por otros marcos. Esta amplia dependencia del backend de Python significa que cualquier debilidad de seguridad dentro de él podría afectar potencialmente a un gran número de organizaciones que utilizan Triton.

La cadena de explotación comienza con la primera vulnerabilidad, identificada como CVE-2025-23320 (con una puntuación de gravedad de 7.5). Este error reside en el backend de Python y puede ser activado enviando una solicitud excepcionalmente grande que exceda el límite de memoria compartida. Cuando esto ocurre, el servidor genera un mensaje de error que revela inadvertidamente el nombre único, o clave, de la región de memoria compartida de Comunicación Interproceso (IPC) interna del backend.

Con esta información crucial, los atacantes pueden aprovechar una API pública de memoria compartida para tomar el control del Triton Inference Server. Esta API adolece de una validación inadecuada, lo que la hace susceptible a vulnerabilidades de escritura y lectura fuera de límites, rastreadas como CVE-2025-23319 (gravedad 8.1) y CVE-2025-23334 (gravedad 5.9), respectivamente. La API no verifica correctamente si una clave proporcionada por el atacante, incluso si es el nombre único de memoria compartida obtenido del primer fallo, corresponde a una región de memoria legítima propiedad del usuario o a una interna privada. Esta supervisión permite a Triton aceptar una solicitud del atacante para registrar un punto final, otorgándoles acceso no autorizado de lectura y escritura a esa región de memoria. Al manipular la memoria compartida del backend, los atacantes pueden finalmente lograr el control total sobre el servidor.

Wiz Research no ha indicado si esta cadena de vulnerabilidades ha sido explotada en ataques del mundo real, declarando que actualmente están reteniendo más detalles.

El equipo de investigación enfatizó la importancia de sus hallazgos, señalando: "Esta investigación demuestra cómo una serie de fallos aparentemente menores pueden encadenarse para crear una explotación significativa". Añadieron que un mensaje de error verboso combinado con una característica en el servidor principal que podría ser mal utilizada fue suficiente para crear un camino hacia un posible compromiso del sistema. "A medida que las empresas implementan la IA y el ML más ampliamente, asegurar la infraestructura subyacente es primordial", afirmó el equipo, destacando la importancia crítica de una estrategia de defensa en profundidad donde la seguridad se considera en cada capa de una aplicación.

Nvidia ha confirmado que las tres fallas de seguridad fueron abordadas en la versión 25.07 de Triton Inference Server, que fue lanzada el 4 de agosto. Todas las versiones anteriores son vulnerables. Wiz Research extendió su gratitud al equipo de seguridad de Nvidia por su "excelente colaboración y rápida respuesta" y recomendó encarecidamente que todos los usuarios de Triton Inference Server actualicen a la última versión inmediatamente para mitigar estos riesgos.

Triton Inference Server ha sido ampliamente adoptado por organizaciones de varios tamaños durante varios años. A principios de este año, Nvidia introdujo Dynamo, que se posiciona como el sucesor de Triton.

RCE en Nvidia Triton Server: Fallos encadenados en el backend de Python al descubierto

Artículos Relacionados

IA Conversacional Multiagente con AutoGen y Gemini API

Google AI Lanza LangExtract: La Biblioteca Python de Código Abierto para Extracción de Datos

Kaggle Game Arena: Nueva Plataforma IA para Juegos Estratégicos