DeepMind dévoile Genie 3 : Le modèle mondial IA interactif en temps réel

Arstechnica

DeepMind, la division de recherche en intelligence artificielle de Google, a dévoilé Genie 3, un nouveau “modèle mondial” capable de générer des simulations interactives en temps réel à partir d’une simple invite ou image. Cette sortie intervient seulement sept mois après l’introduction de son prédécesseur, Genie 2, soulignant le rythme rapide de développement des modèles d’IA fondamentaux.

Genie 3 permet aux utilisateurs de créer des environnements dynamiques générés en continu qui peuvent être modifiés à la volée. DeepMind qualifie ces modifications d’“événements promptables”, permettant aux utilisateurs d’ajouter ou de modifier des objets, d’ajuster les conditions météorologiques ou d’introduire de nouveaux personnages dans le monde simulé. Bien que cette capacité ait un potentiel pour l’industrie du jeu, offrant de nouvelles voies pour un gameplay dynamique et aidant les développeurs à valider des concepts ou des conceptions de niveaux, certains experts de l’industrie ont exprimé leur scepticisme quant à l’utilité immédiate de tels outils.

Au-delà de son application apparente dans la création de jeux, DeepMind souligne le rôle de Genie 3 en tant qu’outil de recherche crucial. Les jeux ont longtemps servi d’environnements vitaux pour le développement de l’IA en raison de leur nature stimulante et interactive et de leurs progrès mesurables, comme l’a démontré l’utilisation antérieure par DeepMind de jeux comme Go et StarCraft pour faire progresser les capacités de l’IA. Les modèles mondiaux, en générant des environnements interactifs image par image, élèvent cette approche. Ils offrent une opportunité unique d’affiner le comportement des modèles d’IA, y compris les “agents incarnés”, dans des situations qui imitent des scénarios du monde réel. Un défi important dans la poursuite de l’intelligence artificielle générale (AGI) est la rareté de données d’entraînement diverses et fiables. Alors que les chercheurs se tournent de plus en plus vers les données synthétiques, DeepMind estime que des modèles mondiaux comme Genie 3 pourraient être instrumentaux, offrant aux agents d’IA un accès à des mondes interactifs pratiquement illimités pour l’entraînement.

Genie 3 représente un bond en avant notable par rapport à Genie 2, en particulier en termes de fidélité visuelle et de performances en temps réel. Les utilisateurs peuvent naviguer dans ces mondes simulés à l’aide du clavier, les expérimentant en résolution 720p à 24 images par seconde. Une amélioration clé est la mémoire améliorée de Genie 3. Alors que Genie 2 avait des difficultés avec la cohérence visuelle au-delà d’environ 10 secondes – similaire à un chatbot perdant le contexte – Genie 3 maintient les éléments visuels de manière cohérente pendant plusieurs minutes, élargissant considérablement la portée de ses simulations.

Malgré ces avancées, Genie 3 n’est pas sans limites. DeepMind reconnaît que si la cohérence de plusieurs minutes est une étape significative, un modèle mondial idéal maintiendrait la cohérence pendant des heures. Le modèle est également actuellement incapable de simuler des lieux réels, générant uniquement des environnements uniques et non déterministes. Par conséquent, il est susceptible aux “hallucinations” typiques de l’IA, produisant occasionnellement des éléments visuels incorrects. Par exemple, les nuances de la locomotion humaine peuvent parfois être déformées, conduisant à des figures qui semblent marcher de manière anormale, et le texte dans ces mondes générés par l’IA apparaît souvent brouillé, sauf s’il est explicitement spécifié dans le prompt.

De plus, l’intégration d’agents IA dans ces modèles mondiaux reste limitée. Bien que des environnements puissent être créés avec des conditions réalistes, les agents manquent actuellement du raisonnement de haut niveau requis pour modifier la simulation au-delà du simple mouvement. DeepMind explore toujours des méthodes permettant à plusieurs agents IA d’interagir au sein d’un environnement partagé.

Les exigences de calcul de Genie 3 sont substantielles, car il rend efficacement de longues vidéos interactives à haute vitesse. Bien que DeepMind n’ait pas divulgué de détails spécifiques sur la consommation d’énergie, l’accès restreint actuel du modèle souligne ses exigences de traitement intensives. Genie 3 est positionné comme un outil de recherche, l’accès initial étant accordé à un groupe sélectionné d’experts et de chercheurs pour aider à son perfectionnement. DeepMind a cependant indiqué des plans pour élargir éventuellement l’accès à ses modèles mondiaux Genie à un public plus large.