DeepMinds Genie 3: Neues Weltmodell ebnet Weg zur AGI

Techcrunch

Google DeepMind hat Genie 3 enthüllt, sein neuestes fundamentales Weltmodell, das das KI-Labor als entscheidenden Fortschritt auf dem Weg zur künstlichen allgemeinen Intelligenz (AGI) oder menschenähnlichen Intelligenz betrachtet. Dieses Modell wurde entwickelt, um Allzweck-KI-Agenten in simulierten Umgebungen zu trainieren.

„Genie 3 ist das erste interaktive Allzweck-Weltmodell in Echtzeit“, erklärte Shlomi Fruchter, ein Forschungsdirektor bei DeepMind, während einer kürzlichen Pressekonferenz. Er betonte die Abkehr von früheren engen Weltmodellen und hob die Fähigkeit hervor, vielfältige Umgebungen zu generieren, von fotorealistisch bis rein imaginär.

Genie 3, derzeit in der Forschungsvorschau und nicht öffentlich verfügbar, baut auf seinen Vorgängern auf, darunter Genie 2, das neue Umgebungen für Agenten generieren konnte, und DeepMinds neuestes Videogenerierungsmodell Veo 3, das für sein tiefes Verständnis der Physik bekannt ist.

Als bedeutender Sprung in der Leistungsfähigkeit kann Genie 3 aus einer einfachen Texteingabe mehrere Minuten interaktiver 3D-Umgebungen in 720p-Auflösung und 24 Bildern pro Sekunde generieren. Dies ist eine erhebliche Verbesserung gegenüber der Ausgabe von 10 bis 20 Sekunden von Genie 2. Das Modell führt auch „promptable World Events“ ein, die es Benutzern ermöglichen, die generierte Welt durch Textbefehle zu modifizieren.

Entscheidend ist, dass die Simulationen von Genie 3 über die Zeit hinweg physikalische Konsistenz bewahren. DeepMind hebt hervor, dass diese Fähigkeit, bei der sich das Modell „erinnert“, was es zuvor generiert hat, nicht explizit programmiert wurde, sondern aus seinem Design hervorging.

Fruchter schlug vor, dass Genie 3 zwar vielversprechend für Anwendungen in Bildung, Gaming oder kreativem Prototyping ist, seine primäre Auswirkung jedoch im Training von Agenten für Allzweckaufgaben liegen wird, ein Schritt, den er für AGI als wesentlich erachtet. Jack Parker-Holder, ein Forschungsmitarbeiter im DeepMind-Team für Offenheit, stimmte dem zu: „Wir glauben, dass Weltmodelle ein Schlüssel auf dem Weg zur AGI sind, insbesondere für verkörperte Agenten, bei denen die Simulation realer Szenarien besonders herausfordernd ist.“

Genie 3 bewältigt diese Herausforderung, indem es sich nicht auf eine fest codierte Physik-Engine verlässt. Stattdessen erklärt DeepMind, dass das Modell sich selbst beibringt, wie die Welt funktioniert – wie sich Objekte bewegen, fallen und interagieren –, indem es seine generierten Sequenzen speichert und über längere Zeithorizonte hinweg logisch schließt. Fruchter erläuterte: „Das Modell ist autoregressiv, was bedeutet, dass es jeweils einen Frame generiert. Es muss auf das zurückblicken, was zuvor generiert wurde, um zu entscheiden, was als Nächstes passieren wird. Das ist ein Schlüsselteil der Architektur.“ Diese inhärente Erinnerung ermöglicht es Genie 3, ein intuitives Verständnis der Physik zu entwickeln, ähnlich dem menschlichen Verständnis der Dynamik der realen Welt.

DeepMind glaubt auch, dass Genie 3 KI-Agenten dazu bringen kann, aus ihren eigenen Erfahrungen zu lernen, was menschliches Lernen widerspiegelt. Als Demonstration testete DeepMind Genie 3 mit einer aktuellen Version seines Scalable Instructable Multiworld Agent (SIMA). In einem simulierten Lagerhaus hatte SIMA Aufgaben wie „sich dem hellgrünen Müllpresse nähern“ oder „zum gepackten roten Gabelstapler gehen“. Laut Parker-Holder erreichte der SIMA-Agent diese Ziele erfolgreich, indem er Aktionen vom Agenten erhielt, die simulierte Welt beobachtete und darin Aktionen ausführte, wobei Genie 3 die Konsistenz durchgehend aufrechterhielt.

Trotz seiner Fortschritte hat Genie 3 Einschränkungen. Obwohl Forscher sein Verständnis der Physik behaupten, zeigte eine Demonstration eines Skifahrers beispielsweise nicht genau die Schneebewegung. Die Bandbreite der Aktionen, die ein Agent ausführen kann, bleibt begrenzt, und obwohl promptbare Weltereignisse Umwelteingriffe bieten, werden diese nicht unbedingt vom Agenten selbst ausgeführt. Die Modellierung komplexer Interaktionen zwischen mehreren unabhängigen Agenten in einer gemeinsamen Umgebung erweist sich ebenfalls als herausfordernd. Darüber hinaus unterstützt Genie 3 derzeit nur wenige Minuten kontinuierlicher Interaktion, während für eine umfassende Agentenschulung Stunden erforderlich wären.

Dennoch stellt Genie 3 einen überzeugenden Schritt nach vorne dar. Es zielt darauf ab, Agenten über einfache Reaktionen hinaus zu befähigen, Fähigkeiten wie Planung, Erkundung, Unsicherheitsfindung und Verbesserung durch Versuch und Irrtum zu fördern. Dieses selbstgesteuerte, verkörperte Lernen wird weithin als entscheidend für den Fortschritt hin zur allgemeinen Intelligenz angesehen. Parker-Holder schloss: „Wir hatten noch keinen ‚Move 37‘-Moment für verkörperte Agenten, bei dem sie tatsächlich neuartige Aktionen in der realen Welt ausführen können.“ Er bezog sich auf den entscheidenden Moment im Go-Match 2016, als DeepMinds AlphaGo einen unkonventionellen, brillanten Zug machte, der die Fähigkeit der KI zu neuartiger Strategie symbolisierte. „Aber jetzt können wir potenziell eine neue Ära einläuten“, fügte er hinzu.

DeepMinds Genie 3: Neues Weltmodell ebnet Weg zur AGI - OmegaNext KI-Nachrichten