DeepMind revela Genie 3: Modelos de mundo interactivos en tiempo real para la IAG

Deepmind

Google DeepMind ha presentado Genie 3, un innovador modelo de mundo de propósito general capaz de generar una variedad sin precedentes de entornos interactivos. Anunciado el 5 de agosto de 2025 por los autores Jack Parker-Holder y Shlomi Fruchter, Genie 3 permite a los usuarios navegar por mundos virtuales dinámicos en tiempo real a 24 fotogramas por segundo, manteniendo la consistencia visual durante varios minutos con una resolución de 720p, todo a partir de una simple indicación de texto.

Durante más de una década, Google DeepMind ha estado a la vanguardia de la investigación en entornos simulados, desde el entrenamiento de agentes de IA en juegos de estrategia en tiempo real hasta el desarrollo de configuraciones complejas para el aprendizaje abierto y la robótica. Este trabajo fundamental llevó al desarrollo de modelos de mundo, sistemas de IA que aprovechan su comprensión del mundo para simular sus diversos aspectos. Dichos modelos permiten a los agentes de IA predecir la evolución ambiental y el impacto de sus propias acciones, sirviendo como un trampolín crucial hacia la Inteligencia Artificial General (IAG) al permitir el entrenamiento de agentes en un plan de estudios ilimitado de entornos de simulación ricos. Basándose en los cimientos establecidos por Genie 1 y Genie 2, introducidos el año pasado, y en los avances en la generación de video con Veo 2 y Veo 3, Genie 3 marca un salto significativo, particularmente como el primer modelo de mundo de DeepMind en ofrecer interacción en tiempo real mientras mejora simultáneamente la consistencia y el realismo.

Genie 3 muestra una amplia gama de capacidades en la generación de mundos. Puede modelar las propiedades físicas del mundo, simulando fenómenos naturales como el agua y la iluminación, e interacciones ambientales intrincadas como navegar por terrenos volcánicos o experimentar condiciones de huracán. El modelo también es experto en simular el mundo natural, creando ecosistemas vibrantes completos con comportamientos animales y vida vegetal detallada, desde lagos glaciares y densos bosques hasta entornos oceánicos profundos bioluminiscentes y jardines zen japoneses meticulosamente diseñados. Más allá del realismo, Genie 3 puede recurrir a la imaginación, generando escenarios fantásticos y personajes animados expresivos, incluyendo criaturas caprichosas en puentes arcoíris o lagartos estilo origami. Además, permite la exploración de diversas ubicaciones y entornos históricos, transportando a los usuarios al antiguo palacio de Cnosos o a los canales de Venecia.

Lograr este nivel de interactividad en tiempo real y consistencia ambiental requirió avances técnicos significativos. Genie 3 debe tener en cuenta una trayectoria creciente de fotogramas generados previamente, referenciando información de minutos atrás para mantener la coherencia, incluso al volver a visitar ubicaciones. Este complejo cálculo ocurre varias veces por segundo en respuesta a las entradas del usuario. Si bien la generación de entornos de forma autorregresiva suele conducir a imprecisiones acumuladas, Genie 3 mantiene en gran medida la consistencia durante varios minutos, con su memoria visual extendiéndose hasta un minuto atrás. A diferencia de los métodos que se basan en representaciones 3D explícitas como NeRFs o Gaussian Splatting, los mundos de Genie 3 se crean dinámicamente fotograma a fotograma basándose en descripciones del mundo y acciones del usuario, lo que permite una dinamismo y riqueza mucho mayores.

Además de los controles de navegación, Genie 3 introduce los “eventos de mundo solicitables”, una forma expresiva de interacción basada en texto. Esta característica permite a los usuarios alterar dinámicamente el mundo generado, por ejemplo, cambiando las condiciones climáticas o introduciendo nuevos objetos y personajes. Esta capacidad también amplía el alcance de los escenarios contrafactuales o “qué pasaría si”, lo que resulta invaluable para los agentes que aprenden a manejar situaciones inesperadas a través de la experiencia.

Genie 3 ya está siendo aprovechado para impulsar la investigación de agentes encarnados. DeepMind lo ha utilizado para generar mundos para una versión reciente de su agente SIMA, un agente generalista diseñado para entornos virtuales 3D. En estos entornos simulados, SIMA persigue objetivos distintos enviando acciones de navegación a Genie 3, que, sin conocer el objetivo específico del agente, simula el futuro basándose en las acciones del agente. La capacidad de Genie 3 para mantener la consistencia en horizontes más largos permite la ejecución de secuencias de acciones más complejas y el logro de objetivos más intrincados, un desarrollo crítico a medida que se espera que los agentes de IA desempeñen un papel más importante en el mundo y a medida que DeepMind avanza hacia la IAG.

A pesar de sus capacidades avanzadas, Genie 3 reconoce limitaciones. Estas incluyen un espacio de acción actualmente restringido para los agentes, desafíos continuos en el modelado preciso de interacciones complejas entre múltiples agentes independientes y la incapacidad de simular ubicaciones del mundo real con perfecta precisión geográfica. Además, el texto claro y legible a menudo se genera solo cuando se proporciona explícitamente en la descripción de entrada, y la interacción continua actualmente se limita a unos pocos minutos en lugar de horas extendidas.

DeepMind enfatiza su compromiso con el desarrollo responsable, particularmente dada la naturaleza abierta y en tiempo real de Genie 3. La compañía ha colaborado estrechamente con su Equipo de Desarrollo e Innovación Responsable para abordar posibles riesgos de seguridad y responsabilidad. Genie 3 se está lanzando como una vista previa de investigación limitada, brindando acceso temprano a un grupo selecto de académicos y creadores. Este enfoque tiene como objetivo recopilar comentarios cruciales y perspectivas interdisciplinarias para comprender mejor los riesgos y desarrollar mitigaciones apropiadas. DeepMind tiene la intención de seguir trabajando con la comunidad para garantizar que la tecnología se desarrolle de manera responsable.

De cara al futuro, Genie 3 se considera un hito significativo para los modelos de mundo, con el potencial de impactar ampliamente la investigación de la IA y los medios generativos. DeepMind está explorando una disponibilidad más amplia para probadores adicionales en el futuro, previendo aplicaciones en educación y capacitación, donde podría ayudar a los estudiantes a aprender y a los expertos a adquirir experiencia. Más allá del entrenamiento de sistemas autónomos y robots, Genie 3 también podría facilitar la evaluación del rendimiento de los agentes y la exploración de sus debilidades, todo ello priorizando un desarrollo seguro y responsable para el beneficio de la humanidad.