DeepMind's Genie 3: Le nouveau modèle mondial qui vise l'AGI
Google DeepMind a dévoilé Genie 3, son dernier modèle mondial fondamental, que le laboratoire d’IA présente comme une avancée cruciale vers l’atteinte de l’intelligence générale artificielle (AGI), ou intelligence de type humain. Ce modèle est conçu pour entraîner des agents IA polyvalents dans des environnements simulés.
« Genie 3 est le premier modèle mondial interactif polyvalent en temps réel », a déclaré Shlomi Fruchter, directeur de recherche chez DeepMind, lors d’un récent point de presse. Il a souligné sa rupture avec les modèles mondiaux étroits précédents, notant sa capacité à générer des environnements divers, du photoréaliste au purement imaginaire.
Actuellement en préversion de recherche et non disponible publiquement, Genie 3 s’appuie sur ses prédécesseurs, y compris Genie 2, qui pouvait générer de nouveaux environnements pour les agents, et le dernier modèle de génération vidéo de DeepMind, Veo 3, connu pour sa profonde compréhension de la physique.
Un bond significatif en capacité, Genie 3 peut générer plusieurs minutes d’environnements 3D interactifs en résolution 720p et à 24 images par seconde à partir d’une simple invite textuelle. Il s’agit d’une amélioration substantielle par rapport à la sortie de 10 à 20 secondes de Genie 2. Le modèle introduit également des « événements mondiaux promptables », permettant aux utilisateurs de modifier le monde généré par des commandes textuelles.
De manière cruciale, les simulations de Genie 3 maintiennent une cohérence physique au fil du temps. DeepMind souligne que cette capacité, où le modèle « se souvient » de ce qu’il a précédemment généré, n’a pas été explicitement programmée mais a émergé de sa conception.
Fruchter a suggéré que si Genie 3 est prometteur pour des applications dans l’éducation, les jeux ou le prototypage créatif, son impact principal sera dans la formation d’agents pour des tâches polyvalentes, une étape qu’il juge essentielle pour l’AGI. Jack Parker-Holder, chercheur au sein de l’équipe d’ouverture de DeepMind, a fait écho à ce sentiment : « Nous pensons que les modèles mondiaux sont essentiels sur la voie de l’AGI, spécifiquement pour les agents incarnés, où la simulation de scénarios du monde réel est particulièrement difficile. »
Genie 3 relève ce défi en ne s’appuyant pas sur un moteur physique codé en dur. Au lieu de cela, DeepMind explique que le modèle apprend lui-même comment le monde fonctionne — comment les objets se déplacent, tombent et interagissent — en se souvenant de ses séquences générées et en raisonnant sur des horizons temporels étendus. Fruchter a précisé : « Le modèle est autorégressif, ce qui signifie qu’il génère une image à la fois. Il doit regarder ce qui a été généré auparavant pour décider ce qui va se passer ensuite. C’est une partie clé de l’architecture. » Cette mémoire inhérente permet à Genie 3 de développer une compréhension intuitive de la physique, semblable à la compréhension humaine de la dynamique du monde réel.
DeepMind pense également que Genie 3 peut pousser les agents IA à apprendre de leurs propres expériences, reflétant l’apprentissage humain. À titre de démonstration, DeepMind a testé Genie 3 avec une version récente de son agent multi-monde instructible et évolutif (SIMA). Dans un entrepôt simulé, SIMA a été chargé d’objectifs tels que « approcher le compacteur de déchets vert vif » ou « marcher jusqu’au chariot élévateur rouge emballé ». Selon Parker-Holder, l’agent SIMA a réussi à atteindre ces objectifs en recevant des actions de l’agent, en observant le monde simulé et en agissant à l’intérieur de celui-ci, Genie 3 maintenant la cohérence tout au long.
Malgré ses avancées, Genie 3 a des limites. Bien que les chercheurs affirment sa compréhension de la physique, une démonstration d’un skieur, par exemple, n’a pas représenté avec précision le mouvement de la neige. La gamme d’actions qu’un agent peut entreprendre reste limitée, et si les événements mondiaux promptables offrent des interventions environnementales, celles-ci ne sont pas nécessairement effectuées par l’agent lui-même. La modélisation d’interactions complexes entre plusieurs agents indépendants dans un environnement partagé s’avère également difficile. De plus, Genie 3 ne prend actuellement en charge que quelques minutes d’interaction continue, alors que des heures seraient nécessaires pour une formation complète des agents.
Néanmoins, Genie 3 représente un pas en avant convaincant. Il vise à permettre aux agents d’aller au-delà des réactions simples, favorisant des capacités telles que la planification, l’exploration, la recherche d’incertitude et l’amélioration par essais et erreurs. Cet apprentissage autonome et incarné est largement considéré comme crucial pour le progrès vers l’intelligence générale. Parker-Holder a conclu : « Nous n’avons pas encore vraiment eu de moment ‘Coup 37’ pour les agents incarnés, où ils peuvent réellement prendre des actions nouvelles dans le monde réel. » Il a fait référence au moment pivot du match de Go de 2016 où l’AlphaGo de DeepMind a fait un mouvement non conventionnel et brillant, symbolisant la capacité de l’IA à élaborer une stratégie nouvelle. « Mais maintenant, nous pouvons potentiellement inaugurer une nouvelle ère », a-t-il ajouté.