OpenAIs Agenten-Ambition: Von Mathematikkenntnissen zur Allgemeinen KI

Als Hunter Lightman 2022 als Forscher zu OpenAI kam, erlebte er den rasanten Aufstieg von ChatGPT, einem der am schnellsten wachsenden Produkte der Geschichte. Gleichzeitig war Lightman Teil eines Teams, bekannt als MathGen, das stillschweigend an einer grundlegenden Herausforderung arbeitete: OpenAIs Modellen beizubringen, bei Mathematikwettbewerben auf High-School-Niveau zu glänzen. Diese Bemühungen sollten sich als maßgeblich für OpenAIs branchenführendes Streben nach KI-Denkmodellen erweisen – der Kerntechnologie, die für KI-Agenten erforderlich ist, die komplexe Computeraufgaben ähnlich wie ein Mensch ausführen können.

„Wir versuchten, die Modelle im mathematischen Denken zu verbessern, worin sie zu dieser Zeit nicht sehr gut waren“, erklärte Lightman und blickte auf die frühe Arbeit von MathGen zurück. Während OpenAIs aktuelle KI-Systeme immer noch Herausforderungen wie „Halluzinationen“ und Schwierigkeiten bei hochkomplexen Aufgaben bewältigen müssen, haben sich ihre mathematischen Denkfähigkeiten erheblich verbessert. Eines von OpenAIs Modellen gewann kürzlich eine Goldmedaille bei der Internationalen Mathematik-Olympiade, einem prestigeträchtigen Wettbewerb für die besten Gymnasiasten. OpenAI glaubt, dass sich diese verbesserten Denkfähigkeiten über verschiedene Domänen hinweg übertragen lassen und letztendlich den Weg für die allgemeinen Agenten ebnen werden, die das Unternehmen seit langem im Visier hat.

Im Gegensatz zu ChatGPT, das als „glücklicher Zufall“ von einer unauffälligen Forschungs-Preview zu einem viralen Verbraucherprodukt wurde, ist OpenAIs Entwicklung von KI-Agenten ein bewusstes, mehrjähriges Unterfangen. Wie OpenAI-CEO Sam Altman auf der ersten Entwicklerkonferenz des Unternehmens im Jahr 2023 erklärte: „Irgendwann werden Sie den Computer einfach nach dem fragen, was Sie brauchen, und er wird all diese Aufgaben für Sie erledigen. Diese Fähigkeiten werden im KI-Bereich oft als Agenten bezeichnet. Die Vorteile davon werden enorm sein.“

Ob Agenten Altmans ehrgeizige Vision vollständig verwirklichen werden, bleibt abzuwarten. Dennoch erzielte OpenAI mit der Veröffentlichung seines ersten KI-Denkmodells, o1, im Herbst 2024 einen erheblichen Einfluss. Weniger als ein Jahr später sind die 21 grundlegenden Forscher hinter diesem Durchbruch zu den begehrtesten Talenten im Silicon Valley geworden. Insbesondere rekrutierte Mark Zuckerberg fünf der o1-Forscher für Metas neue, auf Superintelligenz fokussierte Einheit und bot Vergütungspakete von über 100 Millionen Dollar an. Einer von ihnen, Shengjia Zhao, wurde kürzlich zum Chefwissenschaftler der Meta Superintelligence Labs ernannt.

Der Aufstieg von OpenAIs Denkmodellen und Agenten ist eng mit einer Technik des maschinellen Lernens verbunden, die als Reinforcement Learning (RL) bekannt ist. RL gibt KI-Modellen Feedback zur Korrektheit ihrer Entscheidungen in simulierten Umgebungen. Diese Technik wird seit Jahrzehnten eingesetzt, berühmt demonstriert im Jahr 2016, als Google DeepMinds AlphaGo, ein mit RL trainiertes KI-System, weltweite Aufmerksamkeit erregte, indem es einen Weltmeister im Brettspiel Go besiegte. Ungefähr zur Zeit von AlphaGos Triumph begann Andrej Karpathy, einer der ersten Mitarbeiter von OpenAI, zu erforschen, wie RL genutzt werden könnte, um einen KI-Agenten zu schaffen, der einen Computer bedienen kann. Es würde jedoch Jahre dauern, bis OpenAI die notwendigen Modelle und Trainingstechniken entwickeln würde.

Bis 2018 hatte OpenAI sein erstes großes Sprachmodell der GPT-Serie entwickelt, das auf riesigen Internetdaten vortrainiert wurde. Während GPT-Modelle im Bereich der Textverarbeitung hervorragten und schließlich zu ChatGPT führten, hatten sie anfänglich Schwierigkeiten mit grundlegenden mathematischen Aufgaben. Ein bedeutender Durchbruch ereignete sich 2023, intern „Q*“ und später „Strawberry“ genannt. Dies umfasste die Kombination von großen Sprachmodellen (LLMs), Reinforcement Learning und einer Technik namens Test-Time Computation. Letztere gab den Modellen zusätzliche Zeit und Rechenleistung, um Probleme zu planen und zu bearbeiten, ihre Schritte zu überprüfen, bevor sie eine Antwort gaben. Diese Innovation ermöglichte auch einen neuen Ansatz namens „Chain-of-Thought“ (CoT), der die KI-Leistung bei unbekannten mathematischen Fragen dramatisch verbesserte.

„Ich konnte sehen, wie das Modell zu denken begann“, bemerkte El Kishky, ein Forscher. „Es bemerkte Fehler und machte einen Rückzieher, es wurde frustriert. Es fühlte sich wirklich an, als würde man die Gedanken eines Menschen lesen.“ Während die einzelnen Techniken nicht völlig neu waren, führte OpenAIs einzigartige Kombination direkt zu Strawberry, was wiederum den Weg für o1 ebnete. Das Unternehmen erkannte schnell, dass die Planungs- und Faktenprüfungsfähigkeiten, die diesen KI-Denkmodellen eigen sind, für die Befähigung von KI-Agenten von unschätzbarem Wert sein könnten. „Wir hatten ein Problem gelöst, an dem ich mir seit ein paar Jahren den Kopf zerbrochen hatte“, erzählte Lightman und beschrieb es als einen der aufregendsten Momente seiner Forschungskarriere.

Mit dem Aufkommen von KI-Denkmodellen identifizierte OpenAI zwei neue Wege zur Verbesserung von KI: die Anwendung von mehr Rechenleistung während des Post-Trainings und die Bereitstellung von mehr Zeit und Rechenleistung für Modelle bei der Generierung einer Antwort. „OpenAI denkt als Unternehmen nicht nur darüber nach, wie die Dinge sind, sondern auch, wie sie skalieren werden“, erklärte Lightman. Nach dem Strawberry-Durchbruch im Jahr 2023 gründete OpenAI ein „Agents“-Team unter der Leitung des Forschers Daniel Selsam, um dieses neue Paradigma voranzutreiben. Die Arbeit dieses Teams wurde schließlich in das größere o1-Denkmodellprojekt integriert, mit wichtigen Führungspersönlichkeiten wie OpenAI-Mitbegründer Ilya Sutskever, Chief Research Officer Mark Chen und Chief Scientist Jakub Pachocki.

Die Entwicklung von o1 erforderte die Umleitung wertvoller Ressourcen, hauptsächlich Talente und GPUs. Im Laufe der Geschichte von OpenAI mussten Forscher oft um Ressourcen verhandeln, und das Zeigen von Durchbrüchen war eine bewährte Methode, um sie zu sichern. „Eine der Kernkomponenten von OpenAI ist, dass alles in der Forschung von unten nach oben erfolgt“, sagte Lightman. „Als wir die Beweise [für o1] zeigten, sagte das Unternehmen: ‚Das macht Sinn, lasst uns daran arbeiten.‘“ Einige ehemalige Mitarbeiter legen nahe, dass die übergeordnete Mission des Startups, Künstliche Allgemeine Intelligenz (AGI) zu entwickeln, ein Schlüsselfaktor für das Erreichen von Durchbrüchen bei KI-Denkmodellen war. Durch die Priorisierung der Entwicklung der intelligentesten möglichen KI-Modelle gegenüber der sofortigen Produktentwicklung konnte OpenAI stark in o1 investieren, ein Luxus, der bei konkurrierenden KI-Laboren nicht immer gewährt wird. Diese Entscheidung, neue Trainingsmethoden einzuführen, erwies sich als vorausschauend, da Ende 2024 mehrere führende KI-Labore begannen, abnehmende Erträge von Modellen zu beobachten, die durch traditionelle Vortrainingsskalierung erstellt wurden. Heute stammt ein Großteil des Impulses im KI-Bereich aus Fortschritten bei Denkmodellen.

Das Konzept des KI-„Denkens“ wirft philosophische Fragen auf. In vielerlei Hinsicht ist das ultimative Ziel der KI-Forschung die Nachahmung menschlicher Intelligenz. Seit dem Start von o1 hat die Benutzererfahrung von ChatGPT mehr menschlich klingende Funktionen wie „Denken“ und „Argumentieren“ integriert. Auf die Frage, ob OpenAIs Modelle wirklich denken, bot El Kishky eine Informatik-Perspektive an: „Wir lehren das Modell, wie es Rechenleistung effizient einsetzen kann, um eine Antwort zu erhalten. Wenn man es so definiert, ja, dann denkt es.“ Lightman konzentriert sich auf die Ergebnisse der Modelle, anstatt direkte Parallelen zu menschlichen Gehirnen zu ziehen. „Wenn das Modell schwierige Dinge tut, dann tut es die notwendige Annäherung an das Denken, die es dafür braucht“, sagte er. „Wir können es Denken nennen, weil es wie diese Denkspuren aussieht, aber es ist alles nur ein Stellvertreter für den Versuch, KI-Tools zu schaffen, die wirklich mächtig und für viele Menschen nützlich sind.“ Während OpenAIs Forscher potenzielle Meinungsverschiedenheiten über ihre Definitionen von Denken anerkennen – und tatsächlich sind Kritiker aufgetaucht –, behaupten sie, dass die Fähigkeiten der Modelle von größter Bedeutung sind. Andere KI-Forscher stimmen dem tendenziell zu. Nathan Lambert, ein KI-Forscher der gemeinnützigen AI2, vergleicht KI-Denkmodelle mit Flugzeugen und bemerkt, dass beide von Menschen geschaffene Systeme sind, die von der Natur inspiriert wurden (menschliches Denken bzw. Vogelflug), aber durch völlig unterschiedliche Mechanismen arbeiten. Dies schmälert weder ihren Nutzen noch ihre Fähigkeit, ähnliche Ergebnisse zu erzielen. Ein kürzlich erschienenes Positionspapier von KI-Forschern von OpenAI, Anthropic und Google DeepMind stimmte kollektiv darin überein, dass KI-Denkmodelle noch nicht vollständig verstanden sind und weitere Forschung erforderlich ist. Es könnte zu früh sein, definitiv zu sagen, was in ihnen vor sich geht.

Derzeit funktionieren KI-Agenten auf dem Markt am besten in klar definierten, überprüfbaren Bereichen wie der Codierung. OpenAIs Codex-Agent unterstützt Softwareentwickler bei einfachen Codierungsaufgaben, während Anthropic-Modelle in KI-Codierungstools wie Cursor und Claude Code an Popularität gewonnen haben und zu den ersten KI-Agenten gehören, für die Benutzer bereit sind zu zahlen. Allgemeine KI-Agenten, wie OpenAIs ChatGPT Agent und Perplexitys Comet, haben jedoch immer noch Schwierigkeiten mit vielen komplexen, subjektiven Aufgaben, die Menschen automatisieren möchten. Versuche, diese Tools für Online-Shopping oder die Suche nach Langzeitparkplätzen zu verwenden, führen oft zu längeren Bearbeitungszeiten und „dummen Fehlern“.

Diese frühen Agentensysteme werden sich zweifellos verbessern. Forscher müssen jedoch zunächst lösen, wie die zugrunde liegenden Modelle besser trainiert werden können, um subjektivere Aufgaben zu erledigen. „Wie viele Probleme im maschinellen Lernen ist es ein Datenproblem“, kommentierte Lightman die Einschränkungen von Agenten in subjektiven Domänen. „Einige der Forschungen, auf die ich mich gerade wirklich freue, befassen sich damit, wie man auf weniger überprüfbaren Aufgaben trainiert. Wir haben einige Anhaltspunkte, wie man diese Dinge tun kann.“ Noam Brown, ein OpenAI-Forscher, der sowohl zum IMO-Modell als auch zu o1 beigetragen hat, erklärte, dass OpenAI über neue allgemeine RL-Techniken verfügt, die es ihnen ermöglichen, KI-Modellen Fähigkeiten beizubringen, die nicht leicht überprüfbar sind. Dieser Ansatz war der Schlüssel zum Aufbau des Modells, das eine Goldmedaille bei der IMO gewann. OpenAIs IMO-Modell, ein neueres KI-System, erzeugt mehrere Agenten, die gleichzeitig verschiedene Ideen untersuchen, bevor sie die optimale Antwort auswählen. Dieser Multi-Agenten-Ansatz gewinnt an Bedeutung, wobei Google und xAI kürzlich hochmoderne Modelle veröffentlichten, die ähnliche Techniken verwenden. „Ich denke, diese Modelle werden in Mathematik leistungsfähiger werden, und ich denke, sie werden auch in anderen Denkbereichen leistungsfähiger werden“, sagte Brown. „Der Fortschritt war unglaublich schnell. Ich sehe keinen Grund zu der Annahme, dass er sich verlangsamen wird.“

Diese Fortschritte könnten zu Leistungssteigerungen in OpenAIs kommendem GPT-5-Modell führen. OpenAI hofft, dass GPT-5 seine Dominanz gegenüber Wettbewerbern behaupten wird, indem es das beste KI-Modell zur Verfügung stellt, um Agenten sowohl für Entwickler als auch für Verbraucher zu betreiben. Über die reine Leistungsfähigkeit hinaus zielt das Unternehmen auch darauf ab, die Produktnutzung zu vereinfachen. El Kishky bemerkte, dass OpenAI KI-Agenten entwickeln möchte, die die Benutzerabsicht intuitiv verstehen, wodurch die Notwendigkeit spezifischer Einstellungen entfällt. Ziel ist es, KI-Systeme zu entwickeln, die wissen, wann sie bestimmte Tools verwenden und wie lange sie für eine bestimmte Aufgabe „denken“ müssen.

Diese Ideen zeichnen ein Bild des ultimativen ChatGPT: ein Agent, der jede Aufgabe im Internet für Sie erledigen kann, während er Ihre Präferenzen intuitiv versteht. Diese Vision stellt eine bedeutende Entwicklung des heutigen ChatGPT dar, und OpenAIs Forschung bewegt sich eindeutig in diese Richtung. Während OpenAI vor einigen Jahren zweifellos die KI-Branche anführte, steht das Unternehmen nun einer beeindruckenden Reihe von Konkurrenten gegenüber. Die entscheidende Frage ist nicht mehr nur, ob OpenAI seine agentische Zukunft liefern kann, sondern ob es dies tun kann, bevor Rivalen wie Google, Anthropic, xAI oder Meta es zuerst erreichen.

OpenAIs Agenten-Ambition: Von Mathematikkenntnissen zur Allgemeinen KI

Ähnliche Artikel

Intelligente KI-Agenten bauen: Google Gemini & SAGE Framework

Genie 3: DeepMinds KI schafft konsistente 3D-Welten

DeepMinds Genie 3: Neues Weltmodell ebnet Weg zur AGI