Meta AI-Chef LeCun: LLMs sind zu simpel, Fokus auf reale KI
Im sich schnell entwickelnden Bereich der Künstlichen Intelligenz ist die öffentliche Aufmerksamkeit weitgehend auf Große Sprachmodelle (LLMs) gerichtet. Yann LeCun, Chief AI Scientist bei Meta, plädiert jedoch für eine Fokusverschiebung und behauptet, dass die Zukunft fortschrittlicher KI über die aktuellen Fähigkeiten von LLMs hinausgeht.
LeCun, ein Pionier im Deep Learning, hat offen sein schwindendes Interesse an LLMs bekundet und sie als “eine simplistische Art der Betrachtung von Schlussfolgerungen” angesehen. Obwohl er ihre inkrementellen Verbesserungen durch erhöhte Datenmengen und Rechenleistung anerkennt, glaubt er, dass die wirklich transformativen Fortschritte in der KI aus vier kritischen Bereichen entstehen werden:
Verständnis der physischen Welt: Entwicklung von Maschinen, die die Nuancen der realen Physik und Interaktionen intuitiv erfassen können.
Persistentes Gedächtnis: Schaffung von KI-Systemen mit der Fähigkeit zu langfristigem, zugänglichem Gedächtnis.
Schlussfolgern: Überwindung der aktuellen rudimentären Formen des Schlussfolgerns hin zu anspruchsvolleren, intuitiven Methoden.
Planung: Ermöglichung für KI, Handlungsabfolgen zu planen, um bestimmte Ziele zu erreichen, was menschliche kognitive Prozesse widerspiegelt.
LeCun schlägt vor, dass die Tech-Community, die derzeit von LLMs fasziniert ist, ihre Aufmerksamkeit innerhalb der nächsten fünf Jahre wahrscheinlich auf diese “obskuren akademischen Arbeiten” richten wird.
Die Grenzen tokenbasierter Systeme
Eine grundlegende Einschränkung der aktuellen LLMs, so LeCun, ergibt sich aus ihrem tokenbasierten Ansatz. Tokens, die typischerweise eine endliche Menge diskreter Möglichkeiten (wie Wörter oder Unterwort-Einheiten) darstellen, eignen sich gut für Sprache. Die physische Welt ist jedoch “hochdimensional und kontinuierlich”.
Menschen erwerben früh im Leben “Weltmodelle”, die ein intuitives Verständnis von Ursache und Wirkung ermöglichen – zum Beispiel, wie das Drücken eines Objekts von verschiedenen Punkten unterschiedliche Ergebnisse liefert. Dieses intuitive Verständnis der Physik mit Systemen zu replizieren, die darauf ausgelegt sind, diskrete Tokens vorherzusagen, ist zutiefst schwierig. Versuche, KI durch Vorhersage hochdimensionaler, kontinuierlicher Daten wie Videos auf Pixelebene zu trainieren, haben sich weitgehend als ineffizient erwiesen und verbrauchen enorme Ressourcen, um unvorhersehbare Details zu erfinden. Viele Aspekte der Realität sind auf granularer Ebene von Natur aus unvorhersehbar, was die Rekonstruktion auf Pixelebene zu einem vergeblichen Unterfangen macht.
Einführung von Joint Embedding Predictive Architectures (JAPA)
LeCun postuliert, dass die Lösung in Joint Embedding Predictive Architectures (JAPA) liegt. Im Gegensatz zu generativen Modellen, die eine detaillierte Rekonstruktion auf Pixelebene versuchen, konzentriert sich JAPA auf das Lernen “abstrakter Repräsentationen” von Daten.
Bei JAPA wird eine Eingabe (z. B. ein Videosegment oder ein Bild) von einem Encoder verarbeitet, um eine abstrakte Repräsentation zu erstellen. Eine transformierte Version der Eingabe wird ebenfalls kodiert. Das System trifft dann Vorhersagen innerhalb dieses “Repräsentationsraums” (oder latenten Raums) und nicht im rohen Eingaberaum. Dies ähnelt dem “Lückenfüllen” auf eine abstraktere, semantische Weise. Dieser Ansatz hilft, das “Kollapsproblem” zu überwinden, bei dem Systeme die Eingabe ignorieren und uninformativen Repräsentationen produzieren könnten.
Für agentische Systeme, die in der Lage sind zu schlussfolgern und zu planen, bietet JAPA einen leistungsstarken Mechanismus. Ein JAPA-basierter Prädiktor könnte den aktuellen Zustand der Welt beobachten und den “nächsten Zustand unter einer hypothetischen Aktion” antizipieren. Dies ermöglicht die Planung von Handlungsabfolgen, um gewünschte Ergebnisse zu erzielen, was menschliche kognitive Prozesse widerspiegelt. LeCun kontrastiert dies mit aktuellen “agentischen Schlussfolgersystemen”, die zahlreiche Token-Sequenzen generieren und dann die beste auswählen – eine Methode, die er für alles jenseits kurzer Sequenzen aufgrund ihrer exponentiellen Skalierung als “völlig hoffnungslos” erachtet. Wahres Schlussfolgern, so argumentiert er, findet in einem abstrakten mentalen Zustand statt, nicht durch “Herumschubsen von Tokens”.
Ein praktisches Beispiel ist Metas Projekt Video Joint Embedding Predictive Architecture (VJA). VJA wurde mit kurzen Videosegmenten trainiert und kann Repräsentationen ganzer Videos aus maskierten Versionen vorhersagen, was die Fähigkeit zeigt, zu erkennen, ob ein Video “physikalisch möglich ist oder nicht”. Durch Messung des Vorhersagefehlers kann es “ungewöhnliche” Ereignisse kennzeichnen, ähnlich wie ein Baby von Objekten überrascht wird, die der Schwerkraft trotzen.
Der Weg zur Advanced Machine Intelligence (AMI)
LeCun bevorzugt den Begriff Advanced Machine Intelligence (AMI) gegenüber Artificial General Intelligence (AGI), da er die spezialisierte Natur menschlicher Intelligenz anerkennt. Er schätzt, dass ein “guter Umgang” mit AMI in kleinem Maßstab innerhalb von drei bis fünf Jahren erreicht werden könnte, wobei menschliche KI möglicherweise innerhalb eines Jahrzehnts eintrifft. Er warnt jedoch vor historischem übertriebenem Optimismus und weist die Vorstellung, dass bloßes Skalieren von LLMs oder das Generieren von Tausenden von Token-Sequenzen zu menschlicher Intelligenz führen wird, als “Unsinn” ab.
Ein signifikanter Engpass sind Daten. LLMs werden mit riesigen Textmengen trainiert, die Hunderttausenden von Jahren des Lesens entsprechen. Im Gegensatz dazu verarbeitet ein vierjähriges Kind eine äquivalente Datenmenge durch Sehen in nur 16.000 Stunden, was die immense Effizienz des visuellen Lernens unterstreicht. Diese Disparität verdeutlicht, dass AGI nicht allein durch Training aus Text erreicht werden kann. Der Schlüssel zur Erschließung von AMI liegt laut LeCun darin, das “gute Rezept” für das Training von JAPA-Architekturen in großem Maßstab zu finden, ähnlich den grundlegenden Durchbrüchen, die tiefe neuronale Netze und Transformer ermöglichten.
Aktueller Einfluss und zukünftige Herausforderungen der KI
Trotz des Fokus auf zukünftige Paradigmen betont LeCun den bereits immensen positiven Einfluss der KI. In Wissenschaft und Medizin transformiert KI das Wirkstoffdesign, die Proteinfaltung und die medizinische Bildgebung, reduziert MRT-Scan-Zeiten und ermöglicht die Vorabprüfung auf Tumore. Im Automobilbereich reduzieren KI-gestützte Fahrassistenz- und Notbremssysteme Kollisionen erheblich. KI dient primär als “Werkzeug”, das die menschliche Produktivität und Kreativität in verschiedenen Bereichen erweitert.
Die weit verbreitete Bereitstellung steht jedoch vor Herausforderungen in Bezug auf “Genauigkeit und Zuverlässigkeit”, insbesondere bei Anwendungen, bei denen Fehler kritisch sein können, wie beim autonomen Fahren. LeCun merkt an, dass KI oft nicht an grundlegenden Techniken, sondern an der zuverlässigen Integration scheitert. Doch für viele Anwendungen, bei denen Fehler nicht katastrophal sind (z. B. Unterhaltung, Bildung), ist KI, die “meistens richtig” liegt, bereits sehr vorteilhaft.
Bezüglich der “dunklen Seite” der KI wie Deepfakes äußert LeCun Optimismus. Metas Erfahrung deutet darauf hin, dass trotz der Verfügbarkeit von LLMs kein signifikanter Anstieg bösartiger generativer Inhalte zu verzeichnen ist. Er glaubt, dass die “Gegenmaßnahme gegen Missbrauch einfach bessere KI ist” – Systeme mit gesundem Menschenverstand, Schlussfolgerungsfähigkeit und der Fähigkeit, ihre eigene Zuverlässigkeit zu bewerten.
Die unverzichtbare Rolle von Open Source und globaler Zusammenarbeit
Ein Kernprinzip von LeCuns Philosophie ist die absolute Notwendigkeit von Open-Source-KI-Plattformen. Er betont, dass “gute Ideen aus der Interaktion vieler Menschen und dem Ideenaustausch entstehen”, da keine einzelne Entität ein Monopol auf Innovation besitzt. Metas Engagement für Open Source, beispielhaft durch PyTorch und LLaMA, fördert ein florierendes Ökosystem von Startups und ermöglicht globale Zusammenarbeit.
Open-Source-KI ist für die Zukunft entscheidend, weil sie Folgendes ermöglicht:
Vielfalt von KI-Assistenten: Eine Handvoll Unternehmen kann nicht die Vielfalt an KI-Assistenten bereitstellen, die für eine Zukunft benötigt wird, in der KI fast jede digitale Interaktion vermittelt. Diverse Assistenten sind erforderlich, um verschiedene Sprachen, Kulturen und Wertesysteme zu verstehen.
Verteiltes Training: Keine einzelne Entität wird alle Daten der Welt sammeln. Zukünftige Modelle werden Open-Source-Grundlagenmodelle sein, die verteilt trainiert werden, wobei globale Rechenzentren auf Teilmengen von Daten zugreifen, um ein “Konsensmodell” zu trainieren.
Feinabstimmung auf proprietären Daten: Open-Source-Modelle wie LLaMA ermöglichen es Unternehmen, sie herunterzuladen und auf ihren eigenen proprietären Daten fein abzustimmen, ohne diese hochzuladen, was spezialisierte vertikale Anwendungen und Geschäftsmodelle von Startups unterstützt.
Hardware: Treibstoff für die nächste KI-Revolution
Der Weg zu AMI und anspruchsvollen Weltmodellen wird einen ständig steigenden Rechenaufwand erfordern. Während GPUs exponentielle Fortschritte gemacht haben, bedeutet der Rechenaufwand des Schlussfolgerns im abstrakten Raum, dass kontinuierliche Hardware-Innovation unerlässlich ist.
LeCun bleibt weitgehend skeptisch gegenüber neuromorpher Hardware, optischem Computing und Quantencomputing für allgemeine KI-Aufgaben in naher Zukunft, unter Verweis auf die tiefe Verankerung der digitalen Halbleiterindustrie. Er sieht jedoch Potenzial in Processor-in-Memory (PIM)- oder Analog-/Digitalprozessor- und Speichertechnologien für spezifische “Edge-Computing”-Szenarien, wie die stromsparende visuelle Verarbeitung in Smart Glasses. Dieser Ansatz ahmt biologische Systeme wie die Netzhaut nach, die immense visuelle Daten am Sensor verarbeitet, um sie vor der Übertragung zu komprimieren, was hervorhebt, dass Datenbewegung, nicht nur Berechnung, oft die meiste Energie verbraucht.
Letztendlich sieht LeCun eine Zukunft, in der KI-Systeme als “Werkzeuge” dienen, die menschliche Fähigkeiten erweitern, nicht ersetzen. Unsere Beziehung zur zukünftigen KI wird eine der Befehlsgebung sein, wobei Menschen einen “Stab superintelligenter virtueller Personen” leiten. Diese kollaborative Zukunft, angetrieben durch offene Forschung und Open-Source-Plattformen, wird globale Beiträge nutzen, um eine vielfältige Palette von KI-Assistenten zu schaffen, die das tägliche Leben verbessern.