Nvidia Cosmos Reason: GenAI für menschenähnliche Roboterentscheidungen

Computerworld

Nvidia hat ein generatives KI-Modell, Cosmos Reason, vorgestellt, das Roboter mit menschenähnlichen Entscheidungsfähigkeiten ausstatten soll, indem es ihnen ermöglicht, ihre Umgebung intuitiv zu analysieren. Dieses am Montag angekündigte innovative Vision Language Model (VLM) verarbeitet Informationen aus Video- und Grafikeingaben und nutzt dann sein Verständnis, um Entscheidungen zu treffen, die dem menschlichen gesunden Menschenverstand entsprechen.

Rev Lebaredian, Nvidias Vizepräsident für Omniverse- und Simulationstechnologien, betonte, dass Cosmos Reason Robotern hilft, “wie Menschen zu denken” und Entscheidungen auf der Grundlage von “reinem gesunden Menschenverstand” zu treffen. Dieses leichte Modell mit nur 7 Milliarden Parametern ist vielseitig genug für die Integration in eine Vielzahl physischer Geräte. Seine Anwendungen reichen von eingebetteten Kameras und Verkehrssignalen bis hin zu Industrieinstrumenten in Fabrikhallen, was eine Zukunft signalisiert, in der, wie Lebaredian vorhersagt, “jedes intelligente IoT-Gerät, das sehen kann, von Kameras bis zu Verkehrsampeln, jeder Heim- oder Industrieroboter, über Denkfähigkeiten verfügen wird”.

Das Modell erleichtert die Entwicklung von “Video-KI-Agenten”, die in der Lage sind, große Mengen von Daten aus aufgezeichneten Videos und Live-Streams zu verarbeiten und darauf zu reagieren. Diese Agenten, so Lebaredian, werden allgegenwärtig werden und kritische Funktionen wie die Verkehrsüberwachung automatisieren, Sicherheitsprotokolle verbessern und Videoinspektionsprozesse in verschiedenen Umgebungen, von Industrieanlagen bis hin zu ganzen Stadtlandschaften, verfeinern.

Im Gegensatz zu typischen textbasierten generativen Modellen, die Bilder, Videos oder Text produzieren, ist Cosmos Reason ein dediziertes Vision Language Model. Während andere Unternehmen, einschließlich OpenAI, ihre eigenen VLMs veröffentlicht haben, behauptet Nvidia, dass Cosmos Reason ein tieferes Maß an Argumentation bietet, insbesondere wenn es auf eine Vielzahl zuvor ungesehener Szenarien stößt. Das Modell kann ein grundlegendes Verständnis von Situationen aufbauen, physikalische Interaktionen berücksichtigen und anschließend komplexe Beziehungen oder Motivationen zwischen Objekten und Akteuren innerhalb einer Szene ableiten. Entscheidend ist, dass es auch die Fähigkeit besitzt, völlig neue Erfahrungen zu verstehen.

Um seine praktische Anwendung zu veranschaulichen, lieferte Nvidia ein nachvollziehbares Beispiel: Ein mit Cosmos Reason ausgestatteter Roboter wäre in der Lage, die notwendigen Schritte zur Zubereitung von Toast zu verbinden und zu verstehen, dass der Vorgang Butter, einen Toaster und einen Teller zum Servieren des fertigen Essens erfordert.

Aktuelle KI-Robotermodelle basieren typischerweise auf zwei Kerntechnologien. Die VLM-Komponente, wie Cosmos Reason, ist für die Interpretation von Anweisungen und die Formulierung von Aktionsplänen verantwortlich. Dies arbeitet Hand in Hand mit der “Vision Language Action”-Technologie, die eine schnelle Ausführung ermöglicht und den Robotern eine Art Muskelgedächtnis verleiht.

Cosmos Reason wurde als Open-Source-Modell veröffentlicht und steht jetzt zum Download bereit. Seine Funktionalität ist jedoch ausschließlich an Nvidias Hardware-Ökosystem gebunden. Das Unternehmen bietet seinen Jetson Thor DGX Computer speziell für Roboteranwendungen an und hat gleichzeitig neue professionelle GPUs angekündigt. Die RTX Pro 6000 GPUs sind für High-End-Server bestimmt, während die RTX Pro 4000 und 2000 GPUs, alle auf der fortschrittlichen Blackwell-Architektur basierend, für High-End-Desktop-Workstations konzipiert sind.

Cosmos Reason ist eine strategische Ergänzung zu Nvidias Omniverse-Produktlinie, die ihre Weltbau- und Simulationswerkzeuge umfasst. Omniverse-Produkte konzentrieren sich auf die Erstellung präziser digitaler Zwillingsdarstellungen realer physischer Objekte. Die in diesen virtuellen Umgebungen generierten umfangreichen Daten werden dann zur Erstellung synthetischer Datensätze verwendet, die für das Training ausgeklügelter Vision Language Models wie Cosmos Reason entscheidend sind, um letztendlich die Produktivität in Fabriken, Lagern, Robotersystemen, Fahrzeugen und anderen physischen Bereichen zu steigern.