MolmoAct d'Ai2 : L'IA de raisonnement 3D défie Nvidia et Google en robotique

Venturebeat

Le domaine en évolution rapide de l’IA physique, où les systèmes robotiques s’intègrent à des modèles fondamentaux avancés, attire des investissements et des recherches significatifs de la part de géants technologiques comme Nvidia, Google et Meta. Aujourd’hui, l’Allen Institute for AI (Ai2) défie ces leaders de l’industrie avec la sortie de MolmoAct 7B, un nouveau modèle open-source conçu pour doter les robots de capacités de raisonnement spatial sophistiquées. Contrairement à de nombreux modèles conventionnels de vision-langage-action (VLA) qui traitent principalement l’information dans un contexte bidimensionnel, MolmoAct est conçu pour « raisonner dans l’espace », pensant efficacement en trois dimensions.

Ai2 classifie MolmoAct comme un modèle de raisonnement d’action, une catégorie où les modèles fondamentaux s’engagent dans le raisonnement spatial pour comprendre et planifier des actions au sein d’un environnement physique tridimensionnel. Cela signifie que MolmoAct peut exploiter ses capacités de raisonnement pour comprendre le monde physique qui l’entoure, déterminer comment il occupe l’espace et, par la suite, exécuter les actions appropriées.

Cette compréhension spatiale est réalisée grâce à une approche novatrice impliquant des « jetons de perception spatialement ancrés ». Ces jetons, pré-entraînés et extraits d’entrées visuelles comme la vidéo à l’aide d’un auto-encodeur variationnel quantifié par vecteur, diffèrent fondamentalement des entrées textuelles généralement utilisées par les modèles VLA. En encodant les structures géométriques et en estimant les distances entre les objets, MolmoAct acquiert une compréhension complète de son environnement physique. Une fois ces distances évaluées, le modèle prédit une séquence de points de passage « espace-image », traçant un chemin potentiel. Ce plan spatial détaillé se traduit ensuite par des actions physiques spécifiques, telles que l’ajustement précis d’un bras robotique de quelques centimètres ou l’étirement.

Les tests de référence internes menés par Ai2 ont révélé que MolmoAct 7B a atteint un taux de réussite des tâches de 72,1 %, surpassant les modèles rivaux de Google, Microsoft et Nvidia. Remarquablement, les chercheurs d’Ai2 ont noté que MolmoAct pouvait s’adapter à diverses incarnations robotiques, des bras mécaniques aux formes humanoïdes, avec un minimum de réglage fin. De plus, le modèle est publié en open-source sous licence Apache 2.0, avec ses jeux de données d’entraînement disponibles sous CC BY-4.0, une initiative saluée par la communauté de l’IA au sens large pour favoriser le développement collaboratif.

Bien que les capacités de MolmoAct soient largement applicables partout où les machines doivent interagir avec des environnements physiques, Ai2 envisage son impact principal dans les environnements domestiques. Cet environnement, caractérisé par son irrégularité inhérente et son changement constant, présente les défis les plus importants pour la robotique, ce qui en fait un terrain d’essai idéal pour le raisonnement spatial avancé de MolmoAct.

La recherche de robots plus intelligents et conscients de l’espace est depuis longtemps un rêve fondamental en informatique. Historiquement, les développeurs étaient confrontés à la tâche ardue de coder explicitement chaque mouvement robotique, ce qui conduisait à des systèmes rigides et inflexibles. L’avènement des grands modèles de langage (LLM) a révolutionné ce paradigme, permettant aux robots de déterminer dynamiquement les actions subséquentes en fonction de leurs interactions avec les objets. Par exemple, SayCan de Google Research aide les robots à raisonner sur les tâches à l’aide d’un LLM, les guidant pour déterminer la séquence de mouvements nécessaires pour atteindre un objectif. De même, OK-Robot de Meta et de l’Université de New York utilise des modèles de langage visuel pour la planification des mouvements et la manipulation d’objets, tandis que Nvidia a proclamé l’IA physique comme la “prochaine grande tendance”, publiant des modèles comme Cosmos-Transfer1 pour accélérer l’entraînement robotique.

Alan Fern, professeur au College of Engineering de l’Oregon State University, considère la recherche d’Ai2 comme une “progression naturelle dans l’amélioration des VLM pour la robotique et le raisonnement physique”. Bien qu’il reconnaisse que ce n’est peut-être pas “révolutionnaire”, il a souligné que c’est “une étape importante dans le développement de modèles de raisonnement physique 3D plus performants”. Fern a souligné l’accent mis par MolmoAct sur la “compréhension de scènes véritablement 3D” comme un changement positif significatif par rapport à la dépendance 2D, bien qu’il ait averti que les benchmarks actuels restent “relativement contrôlés et ludiques”, ne capturant pas entièrement la complexité du monde réel. Malgré cela, il a exprimé son impatience de tester le modèle sur ses propres tâches de raisonnement physique. Daniel Maturana, co-fondateur de la startup Gather AI, a salué la nature open-source des données, notant leur valeur pour réduire les coûts élevés associés au développement et à l’entraînement de tels modèles, fournissant ainsi une “base solide sur laquelle s’appuyer” pour les laboratoires universitaires et les amateurs.