RCE sur Nvidia Triton Server : Failles chaînées du backend Python exposées
Des chercheurs en sécurité ont découvert une série de vulnérabilités de gravité élevée dans le Triton Inference Server de Nvidia qui, lorsqu’elles sont exploitées en séquence, pourraient mener à une compromission complète du système. Les failles ont été détaillées par Wiz Research, qui les a signalées à Nvidia, entraînant la publication de correctifs.
L’exploitation réussie de ces vulnérabilités pourrait avoir des conséquences significatives, notamment le vol de modèles d’IA précieux, des brèches de données sensibles, la manipulation des réponses des modèles d’IA, et les attaquants obtenant un point d’ancrage pour s’introduire plus profondément dans le réseau d’une organisation.
Le Triton Inference Server de Nvidia est une plateforme open-source conçue pour exécuter et servir efficacement des modèles d’IA provenant de divers frameworks d’IA majeurs vers des applications orientées utilisateur. Il atteint cette flexibilité grâce à différents “backends”, chacun adapté à un framework spécifique. Le backend Python du serveur est particulièrement polyvalent, supportant non seulement les modèles basés sur Python, mais étant également utilisé par d’autres frameworks. Cette large dépendance au backend Python signifie que toute faiblesse de sécurité en son sein pourrait potentiellement affecter un grand nombre d’organisations utilisant Triton.
La chaîne d’exploitation commence par la première vulnérabilité, identifiée comme CVE-2025-23320 (avec un score de gravité de 7,5). Ce bogue réside dans le backend Python et peut être déclenché en envoyant une requête exceptionnellement grande qui dépasse la limite de mémoire partagée. Lorsque cela se produit, le serveur génère un message d’erreur qui révèle par inadvertance le nom unique, ou clé, de la région de mémoire partagée de Communication Inter-Processus (IPC) interne du backend.
Avec cette information cruciale, les attaquants peuvent alors exploiter une API de mémoire partagée publique pour prendre le contrôle du Triton Inference Server. Cette API souffre d’une validation inadéquate, ce qui la rend susceptible aux vulnérabilités d’écriture et de lecture hors limites, suivies sous les noms de CVE-2025-23319 (gravité 8,1) et CVE-2025-23334 (gravité 5,9), respectivement. L’API ne parvient pas à vérifier correctement si une clé fournie par l’attaquant, même s’il s’agit du nom de mémoire partagée unique obtenu de la première faille, correspond à une région de mémoire légitime appartenant à l’utilisateur ou à une région interne privée. Cette omission permet à Triton d’accepter une requête d’un attaquant pour enregistrer un point d’extrémité, leur accordant un accès en lecture et écriture non autorisé à cette région de mémoire. En manipulant la mémoire partagée du backend, les attaquants peuvent finalement obtenir un contrôle total sur le serveur.
Wiz Research n’a pas indiqué si cette chaîne de vulnérabilités a été exploitée lors d’attaques réelles, déclarant qu’ils retiennent actuellement plus de détails.
L’équipe de recherche a souligné l’importance de leurs découvertes, notant : “Cette recherche démontre comment une série de failles apparemment mineures peuvent être chaînées pour créer un exploit significatif.” Ils ont ajouté qu’un message d’erreur verbeux combiné à une fonctionnalité du serveur principal qui pourrait être mal utilisée était suffisant pour créer un chemin vers une compromission potentielle du système. “Alors que les entreprises déploient l’IA et le ML plus largement, la sécurisation de l’infrastructure sous-jacente est primordiale”, a déclaré l’équipe, soulignant l’importance critique d’une stratégie de défense en profondeur où la sécurité est prise en compte à chaque couche d’une application.
Nvidia a confirmé que les trois failles de sécurité ont été corrigées dans la version 25.07 du Triton Inference Server, qui a été publiée le 4 août. Toutes les versions précédentes sont vulnérables. Wiz Research a exprimé sa gratitude à l’équipe de sécurité de Nvidia pour leur “excellente collaboration et leur réponse rapide” et a fortement recommandé à tous les utilisateurs de Triton Inference Server de mettre à jour vers la dernière version immédiatement pour atténuer ces risques.
Triton Inference Server a été largement adopté par des organisations de diverses tailles pendant plusieurs années. Plus tôt cette année, Nvidia a introduit Dynamo, qui est positionné comme le successeur de Triton.