DeepMind lanza Genie 3: Modelo de mundo interactivo de texto a 3D
DeepMind ha presentado Genie 3, la última iteración de su innovador marco diseñado para generar entornos 3D interactivos directamente a partir de indicaciones de texto. Este sistema avanzado renderiza escenas en tiempo real a aproximadamente 24 fotogramas por segundo en resolución 720p, permitiendo a los usuarios navegar e interactuar continuamente dentro de estos mundos digitales durante varios minutos sin necesidad de reiniciar la escena. Una mejora significativa con respecto a las versiones anteriores es su sofisticada permanencia de objetos: cualquier modificación del entorno, como mover, eliminar o alterar objetos, persiste con el tiempo. Además, el modelo mantiene una física consistente a través de dinámicas mundiales aprendidas, en lugar de depender de un módulo de memoria separado.
Genie 3 integra a la perfección las funciones de un sistema de creación de contenido y una plataforma de simulación. Puede producir entornos únicos a partir de descripciones en lenguaje natural y, simultáneamente, servir como campo de pruebas para agentes autónomos. Su notable flexibilidad le permite conjurar una diversa gama de configuraciones, que van desde diseños industriales interiores hasta vastos terrenos naturales exteriores o intrincados circuitos de obstáculos, todo generado puramente a partir de texto. Esta capacidad hace que Genie 3 sea particularmente adecuado para la creación rápida de prototipos de escenarios de entrenamiento, especialmente en los campos de la robótica y la IA encarnada, donde el desarrollo de habilidades generalizables exige mundos virtuales variados y dinámicos.
Esta capacidad de generación procedimental distingue a Genie 3 de otros sistemas prominentes de IA generativa. Sora de OpenAI, por ejemplo, sobresale en la producción de videos altamente realistas a partir de descripciones de texto, pero se limita a clips de duración fija y carece de soporte para la interacción en tiempo real. Habitat de Meta se centra principalmente en la investigación de IA encarnada, ofreciendo espacios 3D de alta fidelidad para que los agentes realicen tareas de navegación y manipulación; sin embargo, Habitat necesita escenas y activos predefinidos en lugar de generarlos procedimentalmente a partir de indicaciones. De manera similar, Isaac Sim de NVIDIA proporciona simulación robótica avanzada con modelado detallado de sensores y física, pero también depende de entornos construidos o importados manualmente. Incluso MineDojo, construido sobre la mecánica de Minecraft, permite a los agentes de IA operar en un mundo generado procedimentalmente, pero sus imágenes basadas en bloques y la mecánica inherente del juego limitan su realismo y precisión física.
Mientras que los motores de simulación tradicionales como Unreal Engine o Unity ofrecen amplias herramientas para crear entornos personalizados, típicamente requieren extensas bibliotecas de activos y un meticuloso ensamblaje manual de escenas. Genie 3 elude esto generando entornos bajo demanda, ofreciendo un enfoque más optimizado. Sin embargo, las limitaciones actuales incluyen la duración del tiempo de ejecución y la complejidad general de los entornos que puede generar en comparación con aquellos meticulosamente creados dentro de motores de juego dedicados.
Las primeras reacciones de la comunidad en línea subrayan el atractivo futurista de la tecnología. Usuarios en r/singularity de Reddit expresaron asombro, con un comentarista señalando que ver Genie 3 se sentiría como “pura ciencia ficción”, similar a “las cosas de Star Trek”. Otro usuario vislumbró su potencial inmediato, afirmando: “Ahora conecta esto a la realidad virtual, esto es básicamente el metaverso”. Estos sentimientos resaltan el profundo impacto y las posibilidades imaginativas que Genie 3 podría desbloquear en el ámbito de las experiencias digitales interactivas.