Ai2 lance MolmoAct : L'IA qui réinvente la navigation 3D des robots
L’Allen Institute for AI (Ai2) a dévoilé MolmoAct 7B, un modèle d’IA incarnée innovant conçu pour combler le fossé entre l’intelligence artificielle complexe et son application pratique dans le monde physique. Contrairement aux systèmes d’IA traditionnels qui traduisent souvent les instructions linguistiques en mouvement, MolmoAct adopte une approche fondamentalement différente : il perçoit visuellement son environnement, comprend les relations complexes entre l’espace, le mouvement et le temps, puis planifie ses actions en conséquence. Cette intelligence est obtenue en transformant les entrées d’images bidimensionnelles en plans spatiaux tridimensionnels complets, permettant aux robots de naviguer dans le monde physique avec une compréhension et un contrôle améliorés.
Bien que le raisonnement spatial ne soit pas nouveau pour l’IA, la plupart des systèmes contemporains s’appuient sur des architectures propriétaires et fermées entraînées sur de vastes ensembles de données, souvent inaccessibles. De tels modèles sont généralement difficiles à reproduire, coûteux à mettre à l’échelle et fonctionnent comme des «boîtes noires» opaques. MolmoAct, en revanche, offre une alternative transparente et ouverte, ayant été entraîné entièrement sur des données accessibles au public. Sa conception privilégie la généralisation au monde réel et l’interprétabilité ; ses traces de raisonnement visuel étape par étape permettent aux utilisateurs de prévisualiser les actions prévues d’un robot et de guider intuitivement son comportement en temps réel à mesure que les conditions évoluent.
« L’IA incarnée a besoin d’une nouvelle fondation qui privilégie le raisonnement, la transparence et l’ouverture », a déclaré Ali Farhadi, PDG d’Ai2. « Avec MolmoAct, nous ne nous contentons pas de publier un modèle ; nous posons les bases d’une nouvelle ère de l’IA, en apportant l’intelligence de puissants modèles d’IA dans le monde physique. C’est un pas vers une IA capable de raisonner et de naviguer dans le monde de manière plus alignée avec la façon dont les humains le font – et de collaborer avec nous en toute sécurité et efficacement. »
MolmoAct représente la première version d’une nouvelle classe de modèles qu’Ai2 appelle les Modèles de Raisonnement d’Action (ARMs). Un ARM est conçu pour interpréter des instructions de langage naturel de haut niveau et séquencer logiquement des actions physiques pour les exécuter dans le monde réel. Contrairement aux modèles de robotique de bout en bout conventionnels qui pourraient traiter une tâche complexe comme une commande unique et indifférenciée, les ARMs décomposent les instructions de haut niveau en une chaîne transparente de décisions ancrées spatialement. Ce processus de raisonnement en couches implique trois étapes clés : premièrement, une perception consciente de la 3D, qui fonde la compréhension de l’environnement du robot à l’aide du contexte de profondeur et spatial ; deuxièmement, la planification visuelle des points de passage, décrivant une trajectoire de tâche étape par étape dans l’espace de l’image ; et enfin, le décodage des actions, qui convertit le plan visuel en commandes de contrôle précises et spécifiques au robot. Cette approche sophistiquée permet à MolmoAct d’interpréter une commande comme « Triez cette pile de déchets » non pas comme une action singulière, mais comme une série structurée de sous-tâches : reconnaître la scène, regrouper les objets par type, les saisir individuellement et répéter le processus.
MolmoAct 7B, le modèle initial de sa famille, a été entraîné sur un ensemble de données méticuleusement organisé comprenant environ 12 000 « épisodes de robots » capturés dans des environnements du monde réel tels que des cuisines et des chambres. Ces démonstrations ont été transformées en séquences de raisonnement robotique, illustrant comment des instructions complexes se traduisent en actions concrètes et orientées vers un objectif. Les chercheurs d’Ai2 ont consacré des mois à la curation de vidéos de robots effectuant diverses tâches ménagères, de l’organisation des oreillers sur un canapé de salon au rangement du linge dans une chambre.
Remarquablement, MolmoAct atteint cette performance sophistiquée avec une efficacité notable. Son entraînement a impliqué environ 18 millions d’échantillons, pré-entraînés pendant plus de 24 heures sur 256 GPU NVIDIA H100, suivis de seulement deux heures de réglage fin sur 64 GPU. Cela contraste fortement avec de nombreux modèles commerciaux qui exigent des centaines de millions d’échantillons et des ressources de calcul nettement plus importantes. Malgré son entraînement léger, MolmoAct a démontré des performances supérieures sur des benchmarks clés, y compris un taux de succès de 71,9 % sur SimPLER, soulignant que des données de haute qualité et une conception réfléchie peuvent surpasser les modèles entraînés avec beaucoup plus de données et de calcul.
Conformément à la mission d’Ai2, MolmoAct est conçu pour la transparence, une rupture critique avec la nature opaque de la plupart des modèles robotiques. Les utilisateurs peuvent prévisualiser les mouvements planifiés du modèle avant l’exécution, avec des trajectoires de mouvement superposées sur les images de la caméra. Ces plans peuvent être ajustés à l’aide de commandes en langage naturel ou de corrections rapides par esquisse sur un écran tactile, offrant un contrôle précis et améliorant la sécurité dans les applications du monde réel au sein des foyers, des hôpitaux et des entrepôts. De plus, MolmoAct est entièrement open-source et reproductible ; Ai2 publie tous les composants nécessaires pour construire, exécuter et étendre le modèle, y compris les pipelines d’entraînement, les ensembles de données pré- et post-entraînement, les points de contrôle du modèle et les benchmarks d’évaluation. En établissant une nouvelle norme pour l’IA incarnée qui est sûre, interprétable, adaptable et véritablement ouverte, Ai2 vise à étendre ses tests dans des environnements simulés et réels, favorisant le développement de systèmes d’IA plus capables et collaboratifs.