Genie 3: La IA de DeepMind crea mundos 3D interactivos y consistentes

Google DeepMind ha presentado Genie 3, un nuevo “modelo mundial” diseñado para generar entornos 3D interactivos en tiempo real. Este sistema avanzado está destinado a simular escenarios complejos y entrenar agentes de IA autónomos, marcando un paso significativo en la investigación de la IA.

Genie 3 crea mundos virtuales dinámicos a partir de simples indicaciones de texto, permitiendo a los usuarios explorar estos entornos a 24 fotogramas por segundo y resolución de 720p. A diferencia de los modelos tradicionales de generación de video, Genie 3 construye cada fotograma secuencialmente, teniendo en cuenta hasta un minuto de detalles ambientales previos. Este enfoque autorregresivo único es crucial para mantener la coherencia visual y física, permitiendo que los mundos generados permanezcan consistentes durante “varios minutos”, un avance técnico notable sobre modelos anteriores. DeepMind destaca a Genie 3 como el primer modelo en combinar la interactividad en tiempo real con este nivel de consistencia física a largo plazo en sus entornos, posicionándolo como una tecnología fundamental para el desarrollo de sistemas de IA más generalizados (AGI). Esta última iteración se basa en el trabajo previo de DeepMind, incluyendo Genie 1, Genie 2 y los generadores de video Veo 2 y Veo 3.

El modelo demuestra una amplia gama de capacidades creativas, desde la generación de paisajes realistas con efectos climáticos dinámicos como lava, viento y lluvia, hasta la creación de escenarios fantásticos con portales, islas voladoras o criaturas animadas. Incluso puede reconstruir ubicaciones históricas como Venecia o la antigua Cnosos. Los usuarios pueden interactuar con estos mundos ingresando comandos de texto, conocidos como “eventos mundiales programables”, para desencadenar cambios como patrones climáticos cambiantes o la aparición de nuevos objetos. Esta interacción va más allá de la simple navegación, permitiendo a los usuarios crear escenarios de “qué pasaría si” y probar cómo los agentes de IA responden a eventos inesperados.

Una aplicación clave para Genie 3 es el entrenamiento de agentes de IA autónomos. A diferencia de métodos como NeRF o Gaussian splatting, que dependen de datos 3D preexistentes, Genie 3 genera entornos directamente a partir de descripciones de texto y la interacción del usuario, con la consistencia surgiendo orgánicamente de la propia simulación. Esto permite el entrenamiento de agentes de IA en escenarios más abiertos y dinámicos sin la necesidad de preprogramar todas las reglas físicas. DeepMind ya está utilizando Genie 3 para probar su agente interno SIMA, que completa tareas de forma autónoma dentro de estos mundos generados. En esta configuración, la simulación responde únicamente a las acciones del agente en lugar de a sus objetivos predefinidos, facilitando secuencias de tareas complejas en un entorno controlado y ofreciendo nuevas formas para que los investigadores evalúen el rendimiento de la IA e identifiquen debilidades.

Genie 3 está actualmente disponible como una vista previa de investigación limitada para un grupo selecto de investigadores y creativos. DeepMind afirma que este enfoque ayudará a identificar riesgos potenciales tempranamente y a guiar el desarrollo futuro. La compañía vislumbra futuras aplicaciones en educación, simulación y capacitación de expertos, particularmente para preparar a individuos a tomar decisiones en escenarios complejos del mundo real. Sin embargo, el modelo tiene limitaciones técnicas: las acciones de los agentes están actualmente restringidas, las interacciones suelen durar solo unos pocos minutos y las simulaciones multi-agente aún no son consistentemente fiables. Además, las ubicaciones del mundo real no están georreferenciadas, y el texto legible solo aparece si se incluye explícitamente en la indicación.

Genie 3 se alinea con el objetivo más amplio de DeepMind de desarrollar “Modelos Mundiales Fundacionales” para impulsar sistemas de IA más avanzados y con capacidad de agencia. DeepMind afirma que los modelos mundiales como Genie 3 son un “hito clave en el camino hacia la AGI”, ya que permiten el entrenamiento de agentes de IA en un “currículo ilimitado de ricos entornos de simulación”. Esta perspectiva es respaldada por el CEO de DeepMind, Demis Hassabis, quien previamente ha descrito tales modelos como esenciales para construir una inteligencia artificial general, capaz de capturar cada vez más la estructura física subyacente del mundo. Además, un artículo reciente de los investigadores de DeepMind Richard Sutton y David Silver aboga por un cambio fundamental en la investigación de la IA, pasando de sistemas entrenados con datos humanos estáticos a agentes que aprenden de sus propias experiencias en mundos simulados, una visión que modelos como Genie 3 están diseñados para apoyar.

La aparición de modelos mundiales como Genie 3 también suscita debates sobre su impacto potencial en el futuro del desarrollo de videojuegos. Algunas de las demostraciones de DeepMind se asemejan a versiones tempranas de videojuegos, aunque carecen de la complejidad de los títulos comerciales. Jim Fan, Director de IA en NVIDIA, ve a Genie 3 como un precursor de lo que él denomina “motor de juego 2.0”. Fan sugiere que las intrincadas funcionalidades de los motores de juego actuales como Unreal Engine podrían algún día ser encapsuladas por una “masa de pesos de atención impulsada por datos”. En este futuro, estos pesos animarían directamente “un trozo de píxeles espacio-tiempo” basado en comandos de controlador de juego, eliminando la necesidad de activos 3D explícitos, gráficos de escena o programación compleja de sombreadores. Fan predice que el desarrollo de juegos evolucionará hacia una forma sofisticada de ingeniería de prompts, convergiendo con flujos de trabajo de agentes, muy similar a las tendencias recientes en los grandes modelos de lenguaje.

Genie 3: La IA de DeepMind crea mundos 3D interactivos y consistentes

Artículos Relacionados

Construyendo Agentes de IA Autoadaptables con Google Gemini y SAGE

DeepMind's Genie 3: Nuevo Modelo Mundial Apunta a la IGA

Google DeepMind lanza Genie 3: El 'Modelo Mundial' que entrena robots IA