Genie 3 de DeepMind : Vers l'AGI avec des Modèles de Monde en Temps Réel
Google DeepMind a dévoilé Genie 3, son dernier « modèle de monde fondamental », que le laboratoire d’IA présente comme une avancée significative vers l’atteinte de l’intelligence artificielle générale (AGI), ou intelligence de niveau humain.
Shlomi Fruchter, directeur de recherche chez DeepMind, a déclaré lors d’un point de presse que Genie 3 est le « premier modèle de monde polyvalent interactif en temps réel ». Il a souligné sa rupture avec les modèles précédents, plus spécialisés, notant sa capacité à générer des environnements divers, allant du photoréaliste aux mondes entièrement imaginaires.
Genie 3, actuellement en prévisualisation de recherche et non accessible au public, intègre les capacités de ses prédécesseurs. Il s’appuie sur Genie 2, qui pouvait générer de nouveaux environnements pour les agents d’IA, et sur Veo 3, le modèle avancé de génération vidéo de DeepMind, connu pour sa compréhension approfondie de la physique.
En utilisant une simple invite textuelle, Genie 3 peut créer des environnements 3D interactifs qui s’exécutent pendant plusieurs minutes – un bond significatif par rapport aux 10 à 20 secondes réalisables avec Genie 2. Ces simulations sont rendues à une résolution de 720p et 24 images par seconde. Une caractéristique notable est celle des « événements de monde actionnables par invite », permettant aux utilisateurs de modifier dynamiquement l’environnement généré via des commandes textuelles.
De manière cruciale, les simulations de Genie 3 maintiennent une cohérence physique au fil du temps. Cela est attribué à la capacité émergente du modèle de « se souvenir » de ce qu’il a précédemment généré, une capacité que les chercheurs de DeepMind n’ont pas explicitement programmée. Cette compréhension auto-apprise de la physique est au cœur de sa conception ; contrairement aux systèmes qui reposent sur des moteurs physiques codés en dur, Genie 3 apprend comment les objets se déplacent, tombent et interagissent en observant ses propres séquences générées et en raisonnant sur des horizons temporels étendus. Fruchter a expliqué que le modèle est « autorégressif », générant une image à la fois et référençant les images précédentes pour prédire les événements ultérieurs, ce qui est un aspect fondamental de son architecture. Cette mémoire favorise la cohérence qui lui permet de développer une compréhension intuitive des lois physiques, semblable à la compréhension humaine.
Bien que Genie 3 soit prometteur pour des applications dans l’éducation, les jeux et le prototypage créatif, sa signification principale réside dans l’entraînement d’agents d’IA pour des tâches polyvalentes – une composante critique pour atteindre l’AGI. Jack Parker-Holder, chercheur scientifique au sein de l’équipe d’ouverture de DeepMind, a souligné que les modèles de monde sont essentiels pour les agents incarnés, où la simulation de scénarios complexes du monde réel pose un défi considérable.
La capacité à générer des environnements cohérents et physiquement plausibles fait de Genie 3 un terrain d’entraînement idéal. Il peut fournir des mondes infinis et variés que les agents peuvent explorer, les poussant à s’adapter, à lutter et à apprendre par l’expérience, reflétant les processus d’apprentissage humain. Cela permet aux agents d’aller au-delà des simples comportements d’entrée-réaction, favorisant des capacités telles que la planification, l’exploration et l’apprentissage par essais et erreurs – vital pour une intelligence autonome et incarnée.
Malgré ces avancées, Genie 3 fait toujours face à des limitations. La gamme d’actions qu’un agent peut effectuer dans ces mondes simulés reste restreinte, et bien que les « événements de monde actionnables par invite » permettent des interventions environnementales, celles-ci ne sont pas nécessairement initiées par l’agent lui-même. La modélisation précise des interactions complexes entre plusieurs agents indépendants dans un environnement partagé présente également un défi. De plus, le système actuel ne prend en charge que quelques minutes d’interaction continue, alors que des heures seraient nécessaires pour un entraînement complet des agents.
Néanmoins, Genie 3 représente une avancée convaincante. Parker-Holder a établi un parallèle avec le moment du « Coup 37 » du match de Go de 2016 où AlphaGo de DeepMind a fait un coup non conventionnel et brillant, symbolisant la capacité de l’IA à élaborer de nouvelles stratégies. Il a suggéré que Genie 3 pourrait de manière similaire inaugurer une nouvelle ère pour l’IA incarnée, permettant aux agents d’entreprendre des actions véritablement novatrices dans des mondes simulés.