DeepMind enthüllt Genie 3: Echtzeit-Weltmodelle für AGI
Google DeepMind hat Genie 3 enthüllt, ein bahnbrechendes Allzweck-Weltmodell, das eine beispiellose Vielfalt interaktiver Umgebungen generieren kann. Genie 3 wurde am 5. August 2025 von den Autoren Jack Parker-Holder und Shlomi Fruchter angekündigt und ermöglicht es Nutzern, dynamische virtuelle Welten in Echtzeit mit 24 Bildern pro Sekunde zu navigieren, wobei die visuelle Konsistenz über mehrere Minuten bei 720p-Auflösung erhalten bleibt – alles ausgehend von einer einfachen Textaufforderung.
Seit über einem Jahrzehnt ist Google DeepMind führend in der Forschung zu simulierten Umgebungen, von der Ausbildung von KI-Agenten in Echtzeit-Strategiespielen bis zur Entwicklung komplexer Umgebungen für offenes Lernen und Robotik. Diese grundlegende Arbeit führte zur Entwicklung von Weltmodellen – KI-Systemen, die ihr Verständnis der Welt nutzen, um deren verschiedene Aspekte zu simulieren. Solche Modelle befähigen KI-Agenten, die Entwicklung der Umgebung und die Auswirkungen ihrer eigenen Handlungen vorherzusagen, und dienen als entscheidender Schritt auf dem Weg zur Künstlichen Allgemeinen Intelligenz (AGI), indem sie das Training von Agenten in einem unbegrenzten Curriculum reichhaltiger Simulationsumgebungen ermöglichen. Aufbauend auf dem Fundament von Genie 1 und Genie 2, die letztes Jahr eingeführt wurden, und Fortschritten in der Videogenerierung mit Veo 2 und Veo 3, stellt Genie 3 einen bedeutenden Sprung dar, insbesondere als DeepMinds erstes Weltmodell, das Echtzeit-Interaktion bietet und gleichzeitig Konsistenz und Realismus verbessert.
Genie 3 zeigt eine breite Palette von Fähigkeiten bei der Weltgenerierung. Es kann die physikalischen Eigenschaften der Welt modellieren, Naturphänomene wie Wasser und Beleuchtung simulieren sowie komplexe Umweltinteraktionen wie das Navigieren durch vulkanische Terrains oder das Erleben von Hurrikanbedingungen. Das Modell ist auch geschickt darin, die natürliche Welt zu simulieren und lebendige Ökosysteme mit Tierverhalten und detailliertem Pflanzenleben zu schaffen, von Gletscherseen und dichten Wäldern bis hin zu biolumineszierenden Tiefseeumgebungen und sorgfältig gestalteten japanischen Zen-Gärten. Über den Realismus hinaus kann Genie 3 die Fantasie anregen und fantastische Szenarien sowie ausdrucksstarke animierte Charaktere generieren, einschließlich skurriler Kreaturen auf Regenbogenbrücken oder Eidechsen im Origami-Stil. Darüber hinaus ermöglicht es die Erkundung verschiedener Orte und historischer Schauplätze, indem es Benutzer zum antiken Palast von Knossos oder zu den Kanälen Venedigs transportiert.
Die Erreichung dieses Niveaus an Echtzeit-Interaktivität und Umgebungs-Konsistenz erforderte bedeutende technische Durchbrüche. Genie 3 muss eine wachsende Trajektorie zuvor generierter Frames berücksichtigen und Informationen von vor Minuten referenzieren, um die Kohärenz aufrechtzuerhalten, selbst beim erneuten Besuch von Orten. Diese komplexe Berechnung erfolgt mehrmals pro Sekunde als Reaktion auf Benutzereingaben. Während die autoregressive Generierung von Umgebungen typischerweise zu akkumulierten Ungenauigkeiten führt, behält Genie 3 die Konsistenz über mehrere Minuten weitgehend bei, wobei sein visuelles Gedächtnis bis zu einer Minute zurückreicht. Im Gegensatz zu Methoden, die auf expliziten 3D-Repräsentationen wie NeRFs oder Gaussian Splatting basieren, werden die Welten von Genie 3 dynamisch Frame für Frame basierend auf Weltbeschreibungen und Benutzeraktionen erstellt, was eine weitaus größere Dynamik und Reichhaltigkeit ermöglicht.
Zusätzlich zu den Navigationssteuerungen führt Genie 3 „aufforderbare Weltereignisse“ ein, eine ausdrucksstarke Form der textbasierten Interaktion. Diese Funktion ermöglicht es Benutzern, die generierte Welt dynamisch zu verändern, zum Beispiel durch Änderung der Wetterbedingungen oder Einführung neuer Objekte und Charaktere. Diese Fähigkeit erweitert auch den Spielraum für kontrafaktische oder „Was-wäre-wenn“-Szenarien, was sich als unschätzbar wertvoll für Agenten erweist, die lernen, unerwartete Situationen durch Erfahrung zu bewältigen.
Genie 3 wird bereits genutzt, um die Forschung an verkörperten Agenten voranzutreiben. DeepMind hat es verwendet, um Welten für eine aktuelle Version seines SIMA-Agenten zu generieren, einem Generalisten-Agenten, der für 3D-virtuelle Umgebungen entwickelt wurde. In diesen simulierten Umgebungen verfolgt SIMA unterschiedliche Ziele, indem es Navigationsaktionen an Genie 3 sendet, das, ohne das spezifische Ziel des Agenten zu kennen, die Zukunft basierend auf den Aktionen des Agenten simuliert. Die Fähigkeit von Genie 3, die Konsistenz über längere Zeiträume aufrechtzuerhalten, ermöglicht die Ausführung komplexerer Aktionssequenzen und das Erreichen komplizierterer Ziele, eine entscheidende Entwicklung, da von KI-Agenten erwartet wird, dass sie eine größere Rolle in der Welt spielen, und DeepMind auf AGI hinarbeitet.
Trotz seiner fortschrittlichen Fähigkeiten weist Genie 3 anerkannte Einschränkungen auf. Dazu gehören ein derzeit eingeschränkter Aktionsraum für Agenten, anhaltende Herausforderungen bei der genauen Modellierung komplexer Interaktionen zwischen mehreren unabhängigen Agenten und die Unfähigkeit, reale Orte mit perfekter geografischer Genauigkeit zu simulieren. Darüber hinaus wird klarer und lesbarer Text oft nur generiert, wenn er explizit in der Eingabebeschreibung angegeben ist, und die kontinuierliche Interaktion ist derzeit auf wenige Minuten statt auf längere Stunden begrenzt.
DeepMind betont sein Engagement für eine verantwortungsvolle Entwicklung, insbesondere angesichts der offenen und Echtzeit-Natur von Genie 3. Das Unternehmen hat eng mit seinem Team für verantwortungsvolle Entwicklung und Innovation zusammengearbeitet, um potenzielle Sicherheits- und Verantwortungsrisiken anzugehen. Genie 3 wird als begrenzte Forschungs-Preview veröffentlicht, die einer ausgewählten Gruppe von Akademikern und Kreativen frühen Zugang ermöglicht. Dieser Ansatz zielt darauf ab, entscheidendes Feedback und interdisziplinäre Perspektiven zu sammeln, um Risiken besser zu verstehen und geeignete Minderungsmaßnahmen zu entwickeln. DeepMind beabsichtigt, weiterhin mit der Community zusammenzuarbeiten, um sicherzustellen, dass die Technologie verantwortungsvoll entwickelt wird.
Mit Blick auf die Zukunft wird Genie 3 als bedeutender Meilenstein für Weltmodelle angesehen, der die KI-Forschung und generativen Medien umfassend beeinflussen wird. DeepMind prüft eine breitere Verfügbarkeit für zusätzliche Tester in der Zukunft und sieht Anwendungen in Bildung und Training vor, wo es Studenten beim Lernen und Experten beim Sammeln von Erfahrungen helfen könnte. Über das Training autonomer Systeme und Roboter hinaus könnte Genie 3 auch die Bewertung der Agentenleistung und die Erforschung ihrer Schwachstellen erleichtern, wobei stets eine sichere und verantwortungsvolle Entwicklung zum Wohle der Menschheit Priorität hat.