MolmoAct von Ai2: Revolutioniert 3D-Raumlogik für Roboter

Techpark

Das Allen Institute for AI (Ai2) hat MolmoAct 7B enthüllt, ein innovatives verkörpertes KI-Modell, das entwickelt wurde, um die Lücke zwischen komplexer künstlicher Intelligenz und ihrer praktischen Anwendung in der physischen Welt zu schließen. Im Gegensatz zu herkömmlichen KI-Systemen, die oft sprachliche Anweisungen in Bewegung umsetzen, verfolgt MolmoAct einen grundlegend anderen Ansatz: Es nimmt seine Umgebung visuell wahr, versteht die komplexen Beziehungen zwischen Raum, Bewegung und Zeit und plant seine Aktionen entsprechend. Diese Intelligenz wird erreicht, indem zweidimensionale Bildeingaben in umfassende dreidimensionale Raumpläne umgewandelt werden, wodurch Roboter die physische Welt mit verbessertem Verständnis und verbesserter Kontrolle navigieren können.

Obwohl räumliches Denken in der KI nicht neu ist, verlassen sich die meisten zeitgenössischen Systeme auf proprietäre, geschlossene Architekturen, die auf riesigen, oft unzugänglichen Datensätzen trainiert werden. Solche Modelle sind typischerweise schwer zu reproduzieren, teuer zu skalieren und funktionieren als undurchsichtige „Black Boxes“. MolmoAct hingegen bietet eine transparente und offene Alternative, da es vollständig auf öffentlich verfügbaren Daten trainiert wurde. Sein Design priorisiert die Generalisierung und Interpretierbarkeit in der realen Welt; seine schrittweisen visuellen Denkspuren ermöglichen es Benutzern, die beabsichtigten Aktionen eines Roboters vorab zu sehen und dessen Verhalten in Echtzeit intuitiv zu steuern, wenn sich die Bedingungen ändern.

„Verkörperte KI braucht eine neue Grundlage, die Denken, Transparenz und Offenheit priorisiert“, erklärte Ali Farhadi, CEO von Ai2. „Mit MolmoAct veröffentlichen wir nicht nur ein Modell; wir legen den Grundstein für eine neue Ära der KI, die die Intelligenz leistungsstarker KI-Modelle in die physische Welt bringt. Es ist ein Schritt hin zu einer KI, die die Welt auf eine Weise denken und navigieren kann, die stärker mit der menschlichen Art übereinstimmt – und sicher und effektiv mit uns zusammenarbeitet.“

MolmoAct stellt die erste Veröffentlichung in einer neuen Klasse von Modellen dar, die Ai2 als Aktions-Denkmodelle (ARMs) bezeichnet. Ein ARM ist darauf ausgelegt, hochrangige natürliche Sprachanweisungen zu interpretieren und physische Aktionen logisch zu sequenzieren, um sie in der realen Welt auszuführen. Im Gegensatz zu konventionellen End-to-End-Robotikmodellen, die eine komplexe Aufgabe als einen einzigen, undifferenzierten Befehl behandeln könnten, zerlegen ARMs hochrangige Anweisungen in eine transparente Kette räumlich fundierter Entscheidungen. Dieser geschichtete Denkprozess umfasst drei Schlüsselphasen: erstens die 3D-bewusste Wahrnehmung, die das Verständnis des Roboters für seine Umgebung unter Verwendung von Tiefen- und Raumkontext begründet; zweitens die visuelle Wegpunktplanung, die eine schrittweise Aufgabenbahn innerhalb des Bildraums umreißt; und schließlich die Aktionsdekodierung, die den visuellen Plan in präzise, robotspezifische Steuerbefehle umwandelt. Dieser ausgeklügelte Ansatz ermöglicht es MolmoAct, einen Befehl wie „Sortieren Sie diesen Müllhaufen“ nicht als eine einzelne Aktion, sondern als eine strukturierte Reihe von Unteraufgaben zu interpretieren: die Szene erkennen, Objekte nach Typ gruppieren, sie einzeln greifen und den Vorgang wiederholen.

MolmoAct 7B, das erste Modell seiner Familie, wurde auf einem sorgfältig kuratierten Datensatz trainiert, der etwa 12.000 „Roboter-Episoden“ aus realen Umgebungen wie Küchen und Schlafzimmern umfasst. Diese Demonstrationen wurden in Roboter-Denksequenzen umgewandelt, die veranschaulichen, wie komplexe Anweisungen zu konkreten, zielgerichteten Aktionen führen. Ai2-Forscher widmeten Monate der Kuratierung von Videos, in denen Roboter verschiedene Haushaltsaufgaben ausführten, vom Anordnen von Kissen auf einem Wohnzimmersofa bis zum Aufräumen von Wäsche in einem Schlafzimmer.

Bemerkenswerterweise erreicht MolmoAct diese anspruchsvolle Leistung mit bemerkenswerter Effizienz. Sein Training umfasste etwa 18 Millionen Samples, vorab trainiert über 24 Stunden auf 256 NVIDIA H100 GPUs, gefolgt von nur zwei Stunden Feinabstimmung auf 64 GPUs. Dies steht in starkem Kontrast zu vielen kommerziellen Modellen, die Hunderte Millionen von Samples und deutlich größere Rechenressourcen erfordern. Trotz seines schlanken Trainings hat MolmoAct bei wichtigen Benchmarks eine überlegene Leistung gezeigt, einschließlich einer Erfolgsquote von 71,9 % bei SimPLER, was unterstreicht, dass hochwertige Daten und durchdachtes Design Modelle übertreffen können, die mit weitaus umfangreicheren Daten und Rechenressourcen trainiert wurden.

Im Einklang mit der Mission von Ai2 ist MolmoAct auf Transparenz ausgelegt, eine entscheidende Abkehr von der undurchsichtigen Natur der meisten Robotikmodelle. Benutzer können die geplanten Bewegungen des Modells vor der Ausführung vorab sehen, wobei Bewegungstrajektorien auf Kamerabildern überlagert werden. Diese Pläne können mithilfe von Befehlen in natürlicher Sprache oder schnellen Skizzierkorrekturen auf einem Touchscreen angepasst werden, was eine feinkörnige Steuerung ermöglicht und die Sicherheit in realen Anwendungen in Haushalten, Krankenhäusern und Lagern verbessert. Darüber hinaus ist MolmoAct vollständig quelloffen und reproduzierbar; Ai2 veröffentlicht alle notwendigen Komponenten zum Erstellen, Ausführen und Erweitern des Modells, einschließlich Trainingspipelines, Vor- und Nach-Trainingsdatensätzen, Modell-Checkpoints und Evaluierungsbenchmarks. Durch die Festlegung eines neuen Standards für verkörperte KI, die sicher, interpretierbar, anpassungsfähig und wirklich offen ist, zielt Ai2 darauf ab, seine Tests sowohl in simulierten als auch in realen Umgebungen zu erweitern und die Entwicklung fähigerer und kollaborativerer KI-Systeme zu fördern.