La IA de Tencent Convierte Imágenes en Videos de Juegos Interactivos
Tencent ha presentado Hunyuan-GameCraft, un avanzado sistema de inteligencia artificial diseñado para transformar imágenes estáticas en videos de juegos interactivos. Esta innovadora plataforma se diferencia de los generadores de video convencionales, que suelen producir clips fijos, al permitir a los usuarios un control de cámara en tiempo real. Los jugadores pueden navegar libremente por las escenas generadas utilizando entradas de teclado estándar como WASD o las teclas de flecha, experimentando un movimiento dinámico a través de entornos renderizados por IA. El sistema se basa en el modelo de texto a video de código abierto de Tencent, HunyuanVideo, y está diseñado específicamente para ofrecer un movimiento de cámara excepcionalmente suave y consistente.
El marco soporta una amplia gama de movimientos de cámara, incluyendo tres ejes de traslación —adelante/atrás, izquierda/derecha y arriba/abajo— junto con dos ejes de rotación para mirar alrededor. Es notable que la capacidad de “girar” la cámara (roll) ha sido omitida intencionadamente, una elección de diseño que Tencent destaca como poco común en la mayoría de los juegos. La clave de su interactividad es un “codificador de acción” que traduce la entrada del teclado en valores numéricos que el generador de video puede interpretar. Este codificador también tiene en cuenta la duración de las pulsaciones de teclas, lo que permite velocidades de movimiento adaptativas.
Para mantener una alta calidad de video en secuencias extendidas, GameCraft emplea una sofisticada técnica de entrenamiento conocida como Entrenamiento Híbrido Condicionado por el Historial (Hybrid History-Conditioned Training). En lugar de intentar generar un video completo de una vez, el modelo construye cada nuevo segmento de video incrementalmente, basándose en segmentos generados previamente. Los videos se subdividen en fragmentos de aproximadamente 1,3 segundos. Una “máscara binaria” dentro del sistema diferencia entre las partes existentes de cada fotograma y las que aún necesitan ser generadas, logrando un equilibrio entre consistencia y flexibilidad. Tencent afirma que este enfoque híbrido supera las caídas de calidad visibles a menudo asociadas con los métodos sin entrenamiento y la capacidad de respuesta reducida que se encuentra en el condicionamiento de historial puro, produciendo videos que permanecen fluidos y consistentes mientras reaccionan instantáneamente a la entrada del usuario, incluso durante sesiones prolongadas.
Las notables capacidades de Hunyuan-GameCraft tienen sus raíces en su extenso conjunto de datos de entrenamiento, que comprende más de un millón de grabaciones de juego obtenidas de más de 100 títulos AAA, incluidos juegos aclamados por la crítica como Assassin’s Creed, Red Dead Redemption y Cyberpunk 2077. Dentro de esta vasta colección, las escenas y acciones fueron segmentadas meticulosamente, filtradas por calidad, anotadas y estructuradas con descripciones detalladas. Los desarrolladores enriquecieron aún más el conjunto de datos creando 3.000 secuencias de movimiento adicionales derivadas de objetos 3D digitales. El proceso de entrenamiento en sí fue una tarea significativa, realizada en dos fases a través de 192 GPU Nvidia H20, abarcando 50.000 iteraciones.
En evaluaciones de rendimiento directas, Hunyuan-GameCraft demostró resultados superiores. Logró una reducción del 55 por ciento en errores de interacción en comparación con Matrix-Game y ofreció una calidad de imagen mejorada y un control más preciso que los modelos especializados de control de cámara como CameraCtrl, MotionCtrl y WanX-Cam.
Para garantizar la practicidad del sistema en experiencias interactivas en tiempo real, Tencent integró un Modelo de Consistencia por Fases (PCM). Esta innovación acelera significativamente la generación de video al permitir que el sistema omita los pasos intermedios del proceso de difusión típico, saltando directamente a fotogramas finales plausibles. Esta optimización aumenta la velocidad de inferencia de 10 a 20 veces, permitiendo a GameCraft alcanzar una tasa de renderizado en tiempo real de 6.6 fotogramas por segundo, con tiempos de respuesta de entrada del usuario mantenidos por debajo de cinco segundos. Internamente, el sistema opera a 25 fotogramas por segundo, procesando video en segmentos de 33 fotogramas con resolución de 720p, logrando así un equilibrio crucial entre velocidad y fidelidad visual, esencial para el control interactivo.
El código completo y los pesos del modelo de Hunyuan-GameCraft han sido puestos a disposición pública en GitHub, y una demostración web está actualmente en desarrollo. Este desarrollo posiciona a Tencent a la vanguardia de un campo en rápida evolución de modelos de mundo de IA interactivos, compitiendo junto a sistemas notables como Genie 3 de Google DeepMind y Matrix-Game 2.0 de código abierto de Skywork. También representa un avance significativo del trabajo anterior de Tencent, como el Hunyuan World Model 1.0, que podía generar escenas 3D pero estaba limitado a panoramas estáticos, lo que subraya un notable salto adelante en las experiencias de IA interactivas.