Genie 3: L'IA de DeepMind crée des mondes 3D interactifs et cohérents
Google DeepMind a dévoilé Genie 3, un nouveau « modèle de monde » conçu pour générer des environnements 3D interactifs en temps réel. Ce système avancé est destiné à simuler des scénarios complexes et à entraîner des agents IA autonomes, marquant une étape significative dans la recherche en IA.
Genie 3 crée des mondes virtuels dynamiques à partir de simples invites textuelles, permettant aux utilisateurs d’explorer ces environnements à 24 images par seconde et en résolution 720p. Contrairement aux modèles de génération vidéo traditionnels, Genie 3 construit chaque image séquentiellement, en tenant compte de jusqu’à une minute de détails environnementaux précédents. Cette approche autorégressive unique est cruciale pour maintenir la cohérence visuelle et physique, permettant aux mondes générés de rester cohérents pendant « plusieurs minutes » — une avancée technique notable par rapport aux modèles antérieurs. DeepMind souligne que Genie 3 est le premier modèle à combiner l’interactivité en temps réel avec ce niveau de cohérence physique à long terme dans ses environnements, le positionnant comme une technologie fondamentale pour le développement de systèmes d’IA plus généralisés (AGI). Cette dernière itération s’appuie sur les travaux précédents de DeepMind, y compris Genie 1, Genie 2, et les générateurs vidéo Veo 2 et Veo 3.
Le modèle démontre un large éventail de capacités créatives, allant de la génération de paysages réalistes avec des effets météorologiques dynamiques comme la lave, le vent et la pluie, à la création de décors fantastiques complets avec des portails, des îles volantes ou des créatures animées. Il peut même reconstruire des lieux historiques tels que Venise ou l’ancienne Knossos. Les utilisateurs peuvent interagir avec ces mondes en saisissant des commandes textuelles, appelées « événements mondiaux promptables », pour déclencher des changements comme des modifications de schémas météorologiques ou l’apparition de nouveaux objets. Cette interaction s’étend au-delà de la simple navigation, permettant aux utilisateurs de créer des scénarios « et si » et de tester comment les agents IA réagissent à des événements inattendus.
Une application clé de Genie 3 est l’entraînement d’agents IA autonomes. Contrairement à des méthodes comme NeRF ou le splatting gaussien, qui reposent sur des données 3D préexistantes, Genie 3 génère des environnements directement à partir de descriptions textuelles et d’interactions utilisateur, la cohérence émergeant organiquement de la simulation elle-même. Cela permet d’entraîner des agents IA dans des scénarios plus ouverts et dynamiques sans avoir besoin de pré-programmer toutes les règles physiques. DeepMind utilise déjà Genie 3 pour tester son agent interne SIMA, qui accomplit des tâches de manière autonome dans ces mondes générés. Dans cette configuration, la simulation répond uniquement aux actions de l’agent plutôt qu’à ses objectifs prédéfinis, facilitant des séquences de tâches complexes dans un environnement contrôlé et offrant de nouvelles façons aux chercheurs d’évaluer les performances de l’IA et d’identifier les faiblesses.
Genie 3 est actuellement disponible en tant qu’aperçu de recherche limité à un groupe sélectionné de chercheurs et de créatifs. DeepMind déclare que cette approche aidera à identifier les risques potentiels tôt et à guider le développement ultérieur. L’entreprise envisage de futures applications dans l’éducation, la simulation et la formation d’experts, en particulier pour préparer les individus à prendre des décisions dans des scénarios complexes du monde réel. Cependant, le modèle présente des limitations techniques : les actions des agents sont actuellement restreintes, les interactions ne durent généralement que quelques minutes, et les simulations multi-agents ne sont pas encore constamment fiables. De plus, les emplacements du monde réel ne sont pas géoréférencés, et le texte lisible n’apparaît que s’il est explicitement inclus dans l’invite.
Genie 3 s’aligne sur l’objectif plus large de DeepMind de développer des « Modèles de Monde Fondamentaux » pour alimenter des systèmes d’IA plus avancés et dotés d’une capacité d’agir. DeepMind affirme que les modèles de monde comme Genie 3 sont une « étape clé sur la voie de l’AGI », car ils permettent l’entraînement d’agents IA dans un « programme illimité d’environnements de simulation riches ». Cette perspective est partagée par le PDG de DeepMind, Demis Hassabis, qui a précédemment décrit de tels modèles comme essentiels pour construire une intelligence artificielle générale, capable de capturer de plus en plus la structure physique sous-jacente du monde. En outre, un récent article des chercheurs de DeepMind Richard Sutton et David Silver préconise un changement fondamental dans la recherche en IA, s’éloignant des systèmes entraînés sur des données humaines statiques au profit d’agents qui apprennent de leurs propres expériences dans des mondes simulés — une vision que des modèles comme Genie 3 sont conçus pour soutenir.
L’émergence de modèles de monde comme Genie 3 suscite également des discussions sur leur impact potentiel sur l’avenir du développement de jeux. Certaines des démonstrations de DeepMind ressemblent aux premières versions de jeux vidéo, bien qu’elles manquent de la complexité des titres commerciaux. Jim Fan, directeur de l’IA chez NVIDIA, considère Genie 3 comme un précurseur de ce qu’il appelle le « moteur de jeu 2.0 ». Fan suggère que les fonctionnalités complexes des moteurs de jeu actuels comme Unreal Engine pourraient un jour être encapsulées par une « masse de poids d’attention basée sur les données ». Dans ce futur, ces poids animeraient directement « un morceau de pixels espace-temps » basé sur les commandes du contrôleur de jeu, éliminant le besoin d’actifs 3D explicites, de graphes de scène ou de programmation de shaders complexe. Fan prédit que le développement de jeux évoluera vers une forme sophistiquée d’ingénierie d’invites, convergeant avec les flux de travail des agents, à l’instar des tendances récentes des grands modèles de langage.