L'IA de Tencent Transforme les Images en Jeux Vidéo Interactifs

Decoder

Tencent a dévoilé Hunyuan-GameCraft, un système d’intelligence artificielle avancé conçu pour transformer des images statiques en vidéos de jeux interactifs. Cette plateforme innovante se distingue des générateurs de vidéo conventionnels, qui produisent généralement des clips fixes, en offrant aux utilisateurs un contrôle de caméra en temps réel. Les joueurs peuvent naviguer librement dans les scènes générées en utilisant des entrées clavier standard comme WASD ou les touches fléchées, expérimentant un mouvement dynamique à travers des environnements rendus par l’IA. Le système est bâti sur HunyuanVideo, le modèle texte-vers-vidéo open-source de Tencent, et est spécifiquement conçu pour offrir un mouvement de caméra exceptionnellement fluide et cohérent.

Le cadre prend en charge une gamme complète de mouvements de caméra, incluant trois axes de translation — avant/arrière, gauche/droite et haut/bas — ainsi que deux axes de rotation pour regarder autour. Notamment, la capacité de “roulis” de la caméra a été intentionnellement omise, un choix de conception que Tencent souligne comme étant inhabituel dans la plupart des jeux. La clé de son interactivité est un “encodeur d’action” qui traduit les entrées du clavier en valeurs numériques que le générateur vidéo peut interpréter. Cet encodeur tient également compte de la durée des pressions sur les touches, permettant des vitesses de mouvement adaptatives.

Pour maintenir une haute qualité vidéo sur des séquences étendues, GameCraft utilise une technique d’entraînement sophistiquée connue sous le nom de “Hybrid History-Conditioned Training” (entraînement hybride conditionné par l’historique). Au lieu de tenter de générer une vidéo entière en une seule fois, le modèle construit chaque nouveau segment vidéo de manière incrémentale, en s’appuyant sur des segments précédemment générés. Les vidéos sont subdivisées en morceaux d’environ 1,3 seconde. Un “masque binaire” au sein du système différencie les parties existantes de chaque image de celles qui doivent encore être générées, trouvant un équilibre entre cohérence et flexibilité. Tencent déclare que cette approche hybride surmonte les baisses de qualité visibles souvent associées aux méthodes sans entraînement et la réactivité réduite trouvée dans le conditionnement d’historique pur, produisant des vidéos qui restent à la fois fluides et cohérentes tout en réagissant instantanément aux entrées de l’utilisateur, même pendant des sessions prolongées.

Les capacités remarquables de Hunyuan-GameCraft sont enracinées dans son vaste ensemble de données d’entraînement, qui comprend plus d’un million d’enregistrements de gameplay provenant de plus de 100 titres AAA, y compris des jeux acclamés par la critique comme Assassin’s Creed, Red Dead Redemption et Cyberpunk 2077. Au sein de cette vaste collection, les scènes et les actions ont été méticuleusement segmentées, filtrées pour la qualité, annotées et structurées avec des descriptions détaillées. Les développeurs ont en outre enrichi l’ensemble de données en créant 3 000 séquences de mouvement supplémentaires dérivées d’objets 3D numériques. Le processus d’entraînement lui-même a été une entreprise significative, menée en deux phases sur 192 GPU Nvidia H20, s’étendant sur 50 000 itérations.

Lors d’évaluations de performances directes, Hunyuan-GameCraft a démontré des résultats supérieurs. Il a atteint une réduction de 55 % des erreurs d’interaction par rapport à Matrix-Game et a fourni une qualité d’image améliorée et un contrôle plus précis que les modèles spécialisés de contrôle de caméra tels que CameraCtrl, MotionCtrl et WanX-Cam.

Pour assurer la praticité du système pour des expériences interactives en temps réel, Tencent a intégré un Modèle de Cohérence Phased (PCM). Cette innovation accélère considérablement la génération de vidéo en permettant au système de contourner les étapes intermédiaires du processus de diffusion typique, sautant directement aux images finales plausibles. Cette optimisation augmente la vitesse d’inférence de 10 à 20 fois, permettant à GameCraft d’atteindre un taux de rendu en temps réel de 6,6 images par seconde, avec des temps de réponse aux entrées utilisateur maintenus en dessous de cinq secondes. En interne, le système fonctionne à 25 images par seconde, traitant la vidéo par segments de 33 images à une résolution de 720p, établissant ainsi un équilibre crucial entre la vitesse et la fidélité visuelle, essentiel pour le contrôle interactif.

Le code complet et les poids du modèle pour Hunyuan-GameCraft ont été mis à disposition publiquement sur GitHub, et une démonstration web est actuellement en développement. Ce développement positionne Tencent à l’avant-garde d’un domaine en évolution rapide des modèles de monde d’IA interactifs, en concurrence avec des systèmes notables comme Genie 3 de Google DeepMind et Matrix-Game 2.0 open-source de Skywork. Il représente également une avancée significative par rapport aux travaux antérieurs de Tencent, tels que le Hunyuan World Model 1.0, qui pouvait générer des scènes 3D mais était limité aux panoramas statiques, soulignant un bond en avant notable dans les expériences d’IA interactives.