DeepMind lance Genie 3 : un modèle de monde interactif Texte-vers-3D

Infoq

DeepMind a dévoilé Genie 3, la dernière itération de son cadre innovant conçu pour générer des environnements 3D interactifs directement à partir de invites textuelles. Ce système avancé rend les scènes en temps réel à environ 24 images par seconde en résolution 720p, permettant aux utilisateurs de naviguer et d’interagir continuellement dans ces mondes numériques pendant plusieurs minutes sans nécessiter de réinitialisation de scène. Une amélioration significative par rapport aux versions précédentes est sa permanence d’objet sophistiquée : toute modification de l’environnement, comme le déplacement, la suppression ou la modification d’objets, persiste dans le temps. De plus, le modèle maintient une physique cohérente grâce à des dynamiques mondiales apprises, plutôt que de s’appuyer sur un module de mémoire séparé.

Genie 3 intègre de manière transparente les fonctions d’un système de création de contenu et d’une plateforme de simulation. Il peut produire des environnements uniques à partir de descriptions en langage naturel et servir simultanément de terrain d’essai pour les agents autonomes. Sa flexibilité remarquable lui permet de conjurer un large éventail de paramètres, allant des aménagements industriels intérieurs aux vastes terrains naturels extérieurs ou aux parcours d’obstacles complexes, tous générés purement à partir de texte. Cette capacité rend Genie 3 particulièrement bien adapté au prototypage rapide de scénarios d’entraînement, en particulier dans les domaines de la robotique et de l’IA incarnée, où le développement de compétences généralisables exige des mondes virtuels variés et dynamiques.

Cette capacité de génération procédurale distingue Genie 3 des autres systèmes d’IA générative proéminents. Sora d’OpenAI, par exemple, excelle dans la production de vidéos très réalistes à partir de descriptions textuelles, mais est confiné à des clips de longueur fixe et ne prend pas en charge l’interaction en temps réel. Habitat de Meta se concentre principalement sur la recherche en IA incarnée, offrant des espaces 3D haute fidélité pour que les agents effectuent des tâches de navigation et de manipulation ; cependant, Habitat nécessite des scènes et des actifs prédéfinis plutôt que de les générer de manière procédurale à partir d’invites. De même, Isaac Sim de NVIDIA fournit une simulation robotique avancée avec une modélisation détaillée des capteurs et de la physique, mais dépend également d’environnements construits ou importés manuellement. Même MineDojo, construit sur la mécanique de Minecraft, permet aux agents IA d’opérer dans un monde généré de manière procédurale, mais ses visuels basés sur des blocs et ses mécaniques de jeu inhérentes limitent son réalisme et sa précision physique.

Alors que les moteurs de simulation traditionnels comme Unreal Engine ou Unity offrent de vastes outils pour créer des environnements personnalisés, ils nécessitent généralement de vastes bibliothèques d’actifs et un assemblage manuel méticuleux des scènes. Genie 3 contourne cela en générant des environnements à la demande, offrant une approche plus rationalisée. Cependant, les limitations actuelles incluent la durée d’exécution et la complexité globale des environnements qu’il peut générer par rapport à ceux méticuleusement créés au sein de moteurs de jeu dédiés.

Les premières réactions de la communauté en ligne soulignent l’attrait futuriste de la technologie. Les utilisateurs de r/singularity sur Reddit ont exprimé leur admiration, un commentateur faisant remarquer que voir Genie 3 donnerait l’impression d’être de la “pure science-fiction”, semblable aux “choses de Star Trek”. Un autre utilisateur a envisagé son potentiel immédiat, déclarant : “Maintenant, connectez cela à la VR, c’est fondamentalement le métavers.” Ces sentiments mettent en évidence l’impact profond et les possibilités imaginatives que Genie 3 pourrait débloquer dans le domaine des expériences numériques interactives.