Ai2s MolmoAct: 3D-Denken KI fordert Nvidia und Google in der Robotik heraus
Das sich schnell entwickelnde Feld der physischen KI, bei dem Robotersysteme mit fortschrittlichen Basismodellen integriert werden, zieht erhebliche Investitionen und Forschung von Tech-Giganten wie Nvidia, Google und Meta an. Nun fordert das Allen Institute for AI (Ai2) diese Branchenführer mit der Veröffentlichung von MolmoAct 7B heraus, einem neuen Open-Source-Modell, das Roboter mit ausgeklügelten räumlichen Denkfähigkeiten ausstatten soll. Im Gegensatz zu vielen herkömmlichen Vision-Language-Action (VLA)-Modellen, die Informationen hauptsächlich in einem zweidimensionalen Kontext verarbeiten, ist MolmoAct darauf ausgelegt, „im Raum zu denken“, also effektiv in drei Dimensionen zu denken.
Ai2 klassifiziert MolmoAct als Aktions-Reasoning-Modell, eine Kategorie, in der Basismodelle räumliches Denken einsetzen, um Aktionen innerhalb einer physischen, dreidimensionalen Umgebung zu verstehen und zu planen. Das bedeutet, dass MolmoAct seine Denkfähigkeiten nutzen kann, um die physische Welt um sich herum zu erfassen, zu bestimmen, wie es den Raum einnimmt, und anschließend geeignete Aktionen auszuführen.
Dieses räumliche Verständnis wird durch einen neuartigen Ansatz erreicht, der „räumlich geerdete Wahrnehmungs-Tokens“ beinhaltet. Diese Tokens, die vortrainiert und aus visuellen Eingaben wie Videos mithilfe eines vektorquantisierten variationalen Autoencoders extrahiert werden, unterscheiden sich grundlegend von den textbasierten Eingaben, die typischerweise von VLA-Modellen verwendet werden. Durch die Kodierung geometrischer Strukturen und die Schätzung von Abständen zwischen Objekten erhält MolmoAct ein umfassendes Verständnis seiner physischen Umgebung. Sobald diese Abstände bewertet wurden, prognostiziert das Modell eine Abfolge von „Bildraum“-Wegpunkten, die einen potenziellen Pfad abbilden. Dieser detaillierte räumliche Plan wird dann in spezifische physische Aktionen umgesetzt, wie das präzise Anpassen eines Roboterarms um wenige Zentimeter oder das Ausstrecken.
Interne Benchmarks, die von Ai2 durchgeführt wurden, zeigten, dass MolmoAct 7B eine Aufgabenerfolgsrate von 72,1 % erreichte und damit rivalisierende Modelle von Google, Microsoft und Nvidia übertraf. Bemerkenswerterweise stellten die Forscher von Ai2 fest, dass MolmoAct sich mit nur minimalem Fine-Tuning an verschiedene Roboter-Embodiments anpassen konnte, von mechanischen Armen bis hin zu humanoiden Formen. Darüber hinaus wird das Modell unter einer Apache 2.0-Lizenz als Open Source veröffentlicht, wobei seine Trainingsdatensätze unter CC BY-4.0 zur Verfügung gestellt werden, ein Schritt, der von der breiteren KI-Gemeinschaft für die Förderung der kollaborativen Entwicklung gelobt wird.
Obwohl die Fähigkeiten von MolmoAct überall dort breit anwendbar sind, wo Maschinen mit physischen Umgebungen interagieren müssen, sieht Ai2 seine primäre Wirkung im Heimbereich. Diese Umgebung, die sich durch ihre inhärente Unregelmäßigkeit und ständige Veränderung auszeichnet, stellt die größten Herausforderungen für die Robotik dar und ist somit ein ideales Testfeld für MolmoActs fortgeschrittenes räumliches Denken.
Das Streben nach intelligenteren und räumlich bewussteren Robotern ist seit langem ein grundlegender Traum in der Informatik. Historisch gesehen standen Entwickler vor der mühsamen Aufgabe, jede einzelne Roboterbewegung explizit zu programmieren, was zu starren und unflexiblen Systemen führte. Die Einführung großer Sprachmodelle (LLMs) hat dieses Paradigma revolutioniert und ermöglicht es Robotern, nach ihren Interaktionen mit Objekten dynamisch nachfolgende Aktionen zu bestimmen. Zum Beispiel hilft Googles Research SayCan Robotern, Aufgaben mithilfe eines LLM zu durchdenken, indem es sie anleitet, die Abfolge der Bewegungen zu bestimmen, die zur Erreichung eines Ziels erforderlich sind. Ähnlich nutzen Meta und die New York Universitys OK-Robot visuelle Sprachmodelle für die Bewegungsplanung und Objektmanipulation, während Nvidia die physische KI als den „nächsten großen Trend“ proklamiert und Modelle wie Cosmos-Transfer1 veröffentlicht hat, um das Robotertraining zu beschleunigen.
Alan Fern, Professor am Oregon State University College of Engineering, betrachtet Ai2s Forschung als eine „natürliche Weiterentwicklung zur Verbesserung von VLMs für Robotik und physisches Denken“. Obwohl er einräumt, dass es möglicherweise nicht „revolutionär“ ist, betonte er es als „einen wichtigen Schritt vorwärts bei der Entwicklung fähigerer 3D-Modelle für physisches Denken“. Fern hob MolmoActs Fokus auf „echtes 3D-Szenenverständnis“ als eine bedeutende positive Verschiebung von der 2D-Abhängigkeit hervor, warnte jedoch, dass aktuelle Benchmarks „relativ kontrolliert und spielerisch“ bleiben und die Komplexität der realen Welt nicht vollständig erfassen. Trotzdem äußerte er sich gespannt darauf, das Modell an seinen eigenen physischen Denkaufgaben zu testen. Daniel Maturana, Mitbegründer des Startups Gather AI, lobte die Open-Source-Natur der Daten und stellte deren Wert bei der Reduzierung der hohen Kosten fest, die mit der Entwicklung und dem Training solcher Modelle verbunden sind, wodurch eine „solide Grundlage zum Aufbau“ für akademische Labore und Hobbyisten gleichermaßen geschaffen wird.