DeepMind dévoile Genie 3 : Mondes interactifs en temps réel pour l'AGI

Deepmind

Google DeepMind a dévoilé Genie 3, un modèle de monde généraliste révolutionnaire capable de générer une variété sans précédent d’environnements interactifs. Annoncé le 5 août 2025 par les auteurs Jack Parker-Holder et Shlomi Fruchter, Genie 3 permet aux utilisateurs de naviguer dans des mondes virtuels dynamiques en temps réel à 24 images par seconde, en maintenant une cohérence visuelle pendant plusieurs minutes à une résolution de 720p, le tout à partir d’une simple invite textuelle.

Depuis plus d’une décennie, Google DeepMind est à la pointe de la recherche sur les environnements simulés, allant de l’entraînement d’agents IA dans des jeux de stratégie en temps réel au développement de paramètres complexes pour l’apprentissage ouvert et la robotique. Ce travail fondamental a conduit au développement de modèles de monde – des systèmes d’IA qui exploitent leur compréhension du monde pour simuler ses divers aspects. De tels modèles permettent aux agents IA de prédire l’évolution de l’environnement et l’impact de leurs propres actions, servant de tremplin crucial vers l’Intelligence Artificielle Générale (AGI) en permettant l’entraînement d’agents dans un programme illimité d’environnements de simulation riches. S’appuyant sur les bases posées par Genie 1 et Genie 2, introduits l’année dernière, et les avancées en matière de génération vidéo avec Veo 2 et Veo 3, Genie 3 marque un bond significatif, notamment en tant que premier modèle de monde de DeepMind à offrir une interaction en temps réel tout en améliorant simultanément la cohérence et le réalisme.

Genie 3 présente un large éventail de capacités en matière de génération de mondes. Il peut modéliser les propriétés physiques du monde, simulant des phénomènes naturels comme l’eau et l’éclairage, et des interactions environnementales complexes telles que la navigation sur des terrains volcaniques ou l’expérience de conditions d’ouragan. Le modèle est également apte à simuler le monde naturel, créant des écosystèmes vibrants complets avec des comportements animaux et une vie végétale détaillée, des lacs glaciaires et des forêts denses aux environnements océaniques profonds bioluminescents et aux jardins zen japonais méticuleusement conçus. Au-delà du réalisme, Genie 3 peut puiser dans l’imagination, générant des scénarios fantastiques et des personnages animés expressifs, y compris des créatures fantaisistes sur des ponts arc-en-ciel ou des lézards de style origami. De plus, il permet l’exploration de divers lieux et décors historiques, transportant les utilisateurs vers l’ancien palais de Knossos ou les canaux de Venise.

Atteindre ce niveau d’interactivité en temps réel et de cohérence environnementale a nécessité des percées techniques significatives. Genie 3 doit tenir compte d’une trajectoire croissante de cadres précédemment générés, en référençant des informations datant de plusieurs minutes pour maintenir la cohérence, même lors de la revisite de lieux. Ce calcul complexe se produit plusieurs fois par seconde en réponse aux entrées de l’utilisateur. Alors que la génération d’environnements de manière auto-régressive conduit généralement à des inexactitudes accumulées, Genie 3 maintient largement la cohérence pendant plusieurs minutes, sa mémoire visuelle remontant jusqu’à une minute. Contrairement aux méthodes s’appuyant sur des représentations 3D explicites comme les NeRFs ou le Gaussian Splatting, les mondes de Genie 3 sont créés dynamiquement image par image en fonction des descriptions du monde et des actions de l’utilisateur, permettant une bien plus grande dynamique et richesse.

En plus des commandes de navigation, Genie 3 introduit les “événements mondiaux incitables”, une forme expressive d’interaction basée sur le texte. Cette fonctionnalité permet aux utilisateurs de modifier dynamiquement le monde généré, par exemple, en changeant les conditions météorologiques ou en introduisant de nouveaux objets et personnages. Cette capacité élargit également la portée des scénarios contrefactuels ou “et si”, s’avérant inestimable pour les agents apprenant à gérer des situations inattendues par l’expérience.

Genie 3 est déjà utilisé pour alimenter la recherche sur les agents incarnés. DeepMind l’a utilisé pour générer des mondes pour une version récente de son agent SIMA, un agent généraliste conçu pour les environnements virtuels 3D. Dans ces environnements simulés, SIMA poursuit des objectifs distincts en envoyant des actions de navigation à Genie 3, qui, ignorant l’objectif spécifique de l’agent, simule l’avenir en fonction des actions de l’agent. La capacité de Genie 3 à maintenir la cohérence sur des horizons plus longs permet l’exécution de séquences d’actions plus complexes et l’atteinte d’objectifs plus complexes, un développement critique alors que les agents IA sont censés jouer un rôle plus important dans le monde et que DeepMind progresse vers l’AGI.

Malgré ses capacités avancées, Genie 3 présente des limitations reconnues. Celles-ci incluent un espace d’action actuellement contraint pour les agents, des défis persistants dans la modélisation précise des interactions complexes entre plusieurs agents indépendants, et une incapacité à simuler des lieux du monde réel avec une précision géographique parfaite. De plus, un texte clair et lisible n’est souvent généré que lorsqu’il est explicitement fourni dans la description d’entrée, et l’interaction continue est actuellement limitée à quelques minutes plutôt qu’à des heures prolongées.

DeepMind souligne son engagement envers un développement responsable, particulièrement compte tenu de la nature ouverte et en temps réel de Genie 3. L’entreprise a collaboré étroitement avec son équipe de développement et d’innovation responsable pour aborder les risques potentiels en matière de sécurité et de responsabilité. Genie 3 est publié en tant que préversion de recherche limitée, offrant un accès anticipé à un groupe sélectionné d’universitaires et de créateurs. Cette approche vise à recueillir des retours cruciaux et des perspectives interdisciplinaires afin de mieux comprendre les risques et de développer des atténuations appropriées. DeepMind a l’intention de continuer à travailler avec la communauté pour s’assurer que la technologie est développée de manière responsable.

Pour l’avenir, Genie 3 est considéré comme une étape significative pour les modèles de monde, susceptible d’avoir un impact large sur la recherche en IA et les médias génératifs. DeepMind explore une disponibilité plus large pour des testeurs supplémentaires à l’avenir, envisageant des applications dans l’éducation et la formation, où il pourrait aider les étudiants à apprendre et les experts à acquérir de l’expérience. Au-delà de l’entraînement des systèmes autonomes et des robots, Genie 3 pourrait également faciliter l’évaluation des performances des agents et l’exploration de leurs faiblesses, tout en privilégiant un développement sûr et responsable au bénéfice de l’humanité.