Tencents KI: Bilder werden interaktive Gaming-Videos
Tencent hat Hunyuan-GameCraft vorgestellt, ein fortschrittliches System künstlicher Intelligenz, das statische Bilder in interaktive Gaming-Videos verwandelt. Diese innovative Plattform unterscheidet sich von herkömmlichen Videogeneratoren, die typischerweise feste Clips produzieren, indem sie Benutzern eine Echtzeit-Kamerasteuerung ermöglicht. Spieler können die generierten Szenen frei mit Standard-Tastatureingaben wie WASD oder Pfeiltasten navigieren und dynamische Bewegungen durch KI-gerenderte Umgebungen erleben. Das System basiert auf Tencents Open-Source-Text-zu-Video-Modell HunyuanVideo und wurde speziell entwickelt, um eine außergewöhnlich flüssige und konsistente Kamerabewegung zu liefern.
Das Framework unterstützt eine umfassende Palette von Kamerabewegungen, einschließlich dreier Translationsachsen – vorwärts/rückwärts, links/rechts und aufwärts/abwärts – sowie zweier Rotationsachsen zum Umschauen. Bemerkenswerterweise wurde die Fähigkeit, die Kamera zu rollen, absichtlich weggelassen, eine Designentscheidung, die Tencent als ungewöhnlich in den meisten Spielen hervorhebt. Der Schlüssel zu seiner Interaktivität ist ein „Aktions-Encoder“, der Tastatureingaben in numerische Werte übersetzt, die der Videogenerator interpretieren kann. Dieser Encoder berücksichtigt auch die Dauer von Tastendrücken, was adaptive Bewegungsgeschwindigkeiten ermöglicht.
Um eine hohe Videoqualität über längere Sequenzen hinweg zu gewährleisten, verwendet GameCraft eine ausgeklügelte Trainingstechnik, bekannt als Hybrid History-Conditioned Training (Hybrides geschichtsabhängiges Training). Anstatt zu versuchen, ein gesamtes Video auf einmal zu generieren, konstruiert das Modell jedes neue Videosegment inkrementell, indem es auf zuvor generierte Segmente zurückgreift. Videos werden in etwa 1,3 Sekunden lange Abschnitte unterteilt. Eine „Binärmaske“ innerhalb des Systems unterscheidet zwischen bereits vorhandenen Teilen jedes Frames und solchen, die noch generiert werden müssen, wodurch ein Gleichgewicht zwischen Konsistenz und Flexibilität erreicht wird. Tencent gibt an, dass dieser hybride Ansatz die sichtbaren Qualitätseinbrüche, die oft mit trainingsfreien Methoden verbunden sind, und die reduzierte Reaktionsfähigkeit, die bei reiner Geschichtsbedingung auftritt, überwindet, wodurch Videos entstehen, die sowohl flüssig als auch konsistent bleiben und sofort auf Benutzereingaben reagieren, selbst während längerer Sitzungen.
Die bemerkenswerten Fähigkeiten von Hunyuan-GameCraft basieren auf seinem umfangreichen Trainingsdatensatz, der über eine Million Gameplay-Aufnahmen aus mehr als 100 AAA-Titeln umfasst, darunter von der Kritik gefeierte Spiele wie Assassin’s Creed, Red Dead Redemption und Cyberpunk 2077. Innerhalb dieser riesigen Sammlung wurden Szenen und Aktionen akribisch segmentiert, auf Qualität gefiltert, annotiert und mit detaillierten Beschreibungen strukturiert. Entwickler haben den Datensatz weiter angereichert, indem sie zusätzliche 3.000 Bewegungssequenzen aus digitalen 3D-Objekten erstellt haben. Der Trainingsprozess selbst war ein erhebliches Unterfangen, das in zwei Phasen über 192 Nvidia H20 GPUs durchgeführt wurde und sich über 50.000 Iterationen erstreckte.
In direkten Leistungsvergleichen zeigte Hunyuan-GameCraft überlegene Ergebnisse. Es erreichte eine Reduzierung der Interaktionsfehler um 55 Prozent im Vergleich zu Matrix-Game und lieferte eine verbesserte Bildqualität und präzisere Steuerung als spezialisierte Kamerasteuerungsmodelle wie CameraCtrl, MotionCtrl und WanX-Cam.
Um die Praktikabilität des Systems für interaktive Echtzeit-Erlebnisse zu gewährleisten, integrierte Tencent ein Phased Consistency Model (PCM). Diese Innovation beschleunigt die Videogenerierung erheblich, indem sie es dem System ermöglicht, Zwischenschritte des typischen Diffusionsprozesses zu umgehen und direkt zu plausiblen Endbildern zu springen. Diese Optimierung erhöht die Inferenzgeschwindigkeit um das 10- bis 20-fache, wodurch GameCraft eine Echtzeit-Renderungsrate von 6,6 Bildern pro Sekunde erreichen kann, wobei die Reaktionszeiten auf Benutzereingaben unter fünf Sekunden bleiben. Intern arbeitet das System mit 25 Bildern pro Sekunde und verarbeitet Videos in 33-Frame-Segmenten bei 720p-Auflösung, wodurch ein entscheidendes Gleichgewicht zwischen Geschwindigkeit und visueller Wiedergabetreue, das für die interaktive Steuerung unerlässlich ist, erreicht wird.
Der vollständige Code und die Modellgewichte für Hunyuan-GameCraft wurden auf GitHub öffentlich zugänglich gemacht, und eine Web-Demonstration befindet sich derzeit in Entwicklung. Diese Entwicklung positioniert Tencent an der Spitze eines sich schnell entwickelnden Bereichs interaktiver KI-Weltmodelle, die mit bemerkenswerten Systemen wie Google DeepMinds Genie 3 und Skyworks Open-Source-Matrix-Game 2.0 konkurrieren. Es stellt auch einen bedeutenden Fortschritt gegenüber Tencents früheren Arbeiten dar, wie dem Hunyuan World Model 1.0, das 3D-Szenen generieren konnte, aber auf statische Panoramen beschränkt war, was einen bemerkenswerten Sprung nach vorn bei interaktiven KI-Erlebnissen unterstreicht.