Nvidia Triton Server RCE: Verkettene Python-Backend-Schwachstellen enthüllt
Sicherheitsforscher haben eine Reihe von schwerwiegenden Schwachstellen in Nvidias Triton Inference Server entdeckt, die bei sequenzieller Ausnutzung zu einer vollständigen Systemkompromittierung führen könnten. Die Fehler wurden von Wiz Research detailliert beschrieben und an Nvidia gemeldet, was zur Veröffentlichung von Patches führte.
Eine erfolgreiche Ausnutzung dieser Schwachstellen könnte erhebliche Folgen haben, darunter der Diebstahl wertvoller KI-Modelle, die Kompromittierung sensibler Daten, die Manipulation von KI-Modellantworten und das Erlangen eines Angreifer-Zugangs, um tiefer in das Netzwerk einer Organisation einzudringen.
Nvidias Triton Inference Server ist eine Open-Source-Plattform, die darauf ausgelegt ist, KI-Modelle aus verschiedenen wichtigen KI-Frameworks effizient auszuführen und für benutzerorientierte Anwendungen bereitzustellen. Diese Flexibilität wird durch verschiedene „Backends“ erreicht, die jeweils auf ein bestimmtes Framework zugeschnitten sind. Das Python-Backend des Servers ist besonders vielseitig, da es nicht nur Python-basierte Modelle unterstützt, sondern auch von anderen Frameworks genutzt wird. Diese breite Abhängigkeit vom Python-Backend bedeutet, dass alle darin enthaltenen Sicherheitsschwächen potenziell eine große Anzahl von Organisationen betreffen könnten, die Triton verwenden.
Die Ausnutzungskette beginnt mit der ersten Schwachstelle, identifiziert als CVE-2025-23320 (mit einem Schweregrad von 7,5). Dieser Fehler befindet sich im Python-Backend und kann durch das Senden einer außergewöhnlich großen Anfrage ausgelöst werden, die das Shared-Memory-Limit überschreitet. Wenn dies geschieht, generiert der Server eine Fehlermeldung, die unbeabsichtigt den eindeutigen Namen oder Schlüssel des internen Inter-Process Communication (IPC) Shared-Memory-Bereichs des Backends preisgibt.
Mit dieser entscheidenden Information können Angreifer dann eine öffentliche Shared-Memory-API nutzen, um die Kontrolle über den Triton Inference Server zu übernehmen. Diese API leidet unter unzureichender Validierung, was sie anfällig für Out-of-Bounds-Schreib- und Leseschwachstellen macht, die als CVE-2025-23319 (Schweregrad 8,1) bzw. CVE-2025-23334 (Schweregrad 5,9) erfasst sind. Die API überprüft nicht ordnungsgemäß, ob ein vom Angreifer bereitgestellter Schlüssel, selbst wenn es sich um den eindeutigen Shared-Memory-Namen handelt, der aus dem ersten Fehler gewonnen wurde, einem legitimen, benutzerdefinierten Speicherbereich oder einem privaten internen Speicherbereich entspricht. Dieses Versäumnis ermöglicht es Triton, eine Anfrage des Angreifers zur Registrierung eines Endpunkts zu akzeptieren, wodurch ihm unbefugter Lese- und Schreibzugriff auf diesen Speicherbereich gewährt wird. Durch die Manipulation des Shared Memory des Backends können Angreifer letztendlich die volle Kontrolle über den Server erlangen.
Wiz Research hat nicht angegeben, ob diese Schwachstellenkette in realen Angriffen ausgenutzt wurde, und erklärt, dass sie derzeit weitere Details zurückhalten.
Das Forschungsteam betonte die Bedeutung ihrer Erkenntnisse und stellte fest: „Diese Forschung zeigt, wie eine Reihe von scheinbar geringfügigen Fehlern miteinander verkettet werden können, um einen erheblichen Exploit zu erzeugen.“ Sie fügten hinzu, dass eine ausführliche Fehlermeldung in Kombination mit einer Funktion im Hauptserver, die missbraucht werden könnte, ausreichte, um einen Weg zu einer potenziellen Systemkompromittierung zu schaffen. „Da Unternehmen KI und ML immer breiter einsetzen, ist die Sicherung der zugrunde liegenden Infrastruktur von größter Bedeutung“, erklärte das Team und hob die entscheidende Bedeutung einer Tiefenverteidigungsstrategie hervor, bei der Sicherheit auf jeder Ebene einer Anwendung berücksichtigt wird.
Nvidia hat bestätigt, dass alle drei Sicherheitslücken in Version 25.07 des Triton Inference Servers behoben wurden, die am 4. August veröffentlicht wurde. Alle früheren Versionen sind anfällig. Wiz Research bedankte sich beim Nvidia-Sicherheitsteam für die „ausgezeichnete Zusammenarbeit und schnelle Reaktion“ und empfahl dringend, dass alle Benutzer des Triton Inference Servers sofort auf die neueste Version aktualisieren, um diese Risiken zu mindern.
Der Triton Inference Server wird seit mehreren Jahren von Organisationen unterschiedlicher Größe weit verbreitet eingesetzt. Anfang dieses Jahres führte Nvidia Dynamo ein, das als Nachfolger von Triton positioniert ist.