Forscher macht OpenAI's gpt-oss-20b zum unzensierten Basismodell
Weniger als zwei Wochen nachdem OpenAI seine leistungsstarke neue gpt-oss-Familie von großen Sprachmodellen veröffentlichte, die ersten Open-Weights-Modelle des Unternehmens seit 2019, werden sie bereits von Entwicklern umgestaltet. Ein markantes Beispiel kommt von Jack Morris, einem PhD-Studenten am Cornell Tech und Forscher bei Meta, der kürzlich gpt-oss-20b-base vorstellte. Diese überarbeitete Version von OpenAIs kleinerem gpt-oss-20B-Modell entfernt dessen eingebaute Denkfähigkeiten und versetzt es in einen rohen, vortrainierten Zustand zurück, der schnellere, freiere und weniger eingeschränkte Antworten bietet. Das Modell ist jetzt auf Hugging Face unter einer permissiven MIT-Lizenz verfügbar, die sowohl weitere Forschung als auch kommerzielle Anwendungen ermöglicht.
Um Morris’ Innovation zu verstehen, ist es entscheidend, zwischen OpenAIs Veröffentlichung und dem, was Forscher der künstlichen Intelligenz als “Basismodell” bezeichnen, zu unterscheiden. Die meisten großen Sprachmodelle, die von führenden KI-Laboren, einschließlich OpenAI, Anthropic, Google und Open-Source-Akteuren wie Meta und DeepSeek angeboten werden, sind “nachtrainiert”. Das bedeutet, sie haben eine zusätzliche Phase durchlaufen, in der sie kuratierten Beispielen gewünschten Verhaltens ausgesetzt wurden. Bei instruktionsoptimierten Modellen beinhaltet dies die Bereitstellung zahlreicher Beispiele von Instruktionen, gepaart mit idealen Antworten, um der KI beizubringen, hilfreicher, höflicher oder sicherer auf natürliche Sprachanfragen zu reagieren.
OpenAIs gpt-oss-Modelle, die am 5. August veröffentlicht wurden, waren “reasoning-optimized” (auf Argumentation optimiert). Sie wurden nicht nur darauf trainiert und feinabgestimmt, das nächste Wort vorherzusagen, sondern auch Anweisungen sicher und konsistent zu befolgen, oft unter Verwendung einer strukturierten “Gedankenkette” (chain of thought), um Probleme durchzuarbeiten, bevor eine endgültige Antwort produziert wird. Dieser Ansatz, den OpenAI erstmals vor fast einem Jahr mit seinem o1-Modell einführte, wurde branchenweit weit verbreitet. Er zwingt Modelle, über mehrere Schritte länger “nachzudenken” und ihre eigene Arbeit zu überprüfen, wodurch sie besser für Aufgaben wie Codierung, das Lösen mathematischer Probleme oder das Beantworten von Sachfragen mit Erklärungen geeignet sind. Dies bedeutet jedoch auch, dass ihre Antworten gefiltert und von Inhalten, die als unsicher oder unerwünscht gelten, weggelenkt werden.
Im Gegensatz dazu ist ein Basismodell die rohe, vortrainierte Version eines großen Sprachmodells, bevor eine solche reasoning-spezifische Ausrichtung angewendet wird. Basismodelle versuchen einfach, die wahrscheinlichsten nächsten Wörter basierend auf dem vorhergehenden Text vorherzusagen, ohne eingebaute Schutzmaßnahmen, stilistische Präferenzen oder Verhaltensweisen zur Ablehnung. Sie werden von einigen Forschern hoch geschätzt, da sie vielfältigere und weniger eingeschränkte Ausgaben produzieren können. Das Studium ihres ungefilterten Verhaltens kann auch tiefere Einblicke geben, wie Modelle Wissen und Muster aus ihren Trainingsdaten speichern.
Morris’ Ziel war es, OpenAIs Ausrichtungsprozess zu “reversieren” und das kleinere gpt-oss-20B in einen Zustand zurückzuversetzen, der seiner ursprünglichen vortrainierten Form viel näher kommt. Wie er in einem X-Thread zur Ankündigung des Projekts erklärte: “Wir haben im Grunde den Ausrichtungsteil des LLM-Trainings umgekehrt, sodass wir wieder etwas haben, das natürlich aussehenden Text produziert. Es beteiligt sich nicht mehr an CoT. Es ist wieder ein Modell, das einfach das nächste Token in generischem Text vorhersagt.”
Anstatt zu versuchen, die Sicherheitsfilter des Modells mit cleveren Prompts zu umgehen, was Morris in frühen Experimenten als ineffektiv empfand, verfolgte er nach einem Gespräch mit John Schulman, einem ehemaligen OpenAI-Mitbegründer und aktuellem Chefwissenschaftler bei Thinking Machines, eine andere Strategie. Die Kernidee war, die Umkehrung der Ausrichtung als ein geringfügiges Optimierungsproblem zu behandeln: Wenn der größte Teil des vortrainierten Wissens des Modells in seinen internen Einstellungen (Gewichten) verblieb, dann könnte nur ein kleines Update mit niedrigem Rang erforderlich sein, um es zurück zum Basismodellverhalten zu bewegen.
Morris implementierte dies, indem er ein Low-Rank Adapter (LoRA)-Update auf nur drei spezifische Schichten des Modells – die MLP-Schichten an den Positionen 7, 15 und 23 – mit einem Rang von 16 anwendete. Dies umfasste das Training von etwa 60 Millionen Parametern, was lediglich 0,3 % der insgesamt 21 Milliarden Parameter des Modells ausmacht. Er nutzte etwa 20.000 Dokumente aus dem FineWeb-Datensatz und behielt ein Format bei, das dem ursprünglichen Vortraining so nahe wie möglich kam, um sicherzustellen, dass das Modell keine neuen Informationen lernen, sondern seine breiten Fähigkeiten zur Generierung von Freitext reaktivieren würde. Der Trainingsprozess dauerte vier Tage auf acht NVIDIA H200 GPUs, mit einer Lernrate von 2e-6, einer Batch-Größe von 16 und einer maximalen Sequenzlänge von 8.192 Tokens. Danach fusionierte Morris die LoRA-Gewichte wieder in das Modell, sodass Benutzer es als eigenständiges, vollständig feinabgestimmtes Artefakt ausführen können. Er umging auch die Einschränkungen aktueller offener Tools für das Feinabstimmen von Mixture-of-Experts (MoE)-Architekturen wie gpt-oss, indem er sein eigenes System entwickelte, um den Fortschritt häufig zu speichern und Datenbatches zu überspringen, die das Risiko einer Überladung des GPU-Speichers bargen.
Es ist wichtig, Morris’ Klarstellung als Antwort auf Community-Fragen zu beachten: Er hat die ursprünglichen Gewichte des Basismodells, die das Verhalten seiner künstlichen Neuronen steuern, nicht wiederhergestellt. Stattdessen gibt er an, dass seine Arbeit “die Verteilung des Basismodells mit einem gewissen Fehler wiederhergestellt hat” – was die Wahrscheinlichkeitsmuster bedeutet, die das Modell zur Erzeugung von Ausgaben verwendet – auch wenn die zugrunde liegenden Gewichte, die diese Muster erzeugen, unterschiedlich sein können.
Das resultierende gpt-oss-20b-base zeigt merklich freiere Ausgaben. Es erklärt die Argumentation nicht mehr standardmäßig Schritt für Schritt und produziert eine breitere Palette von Antworten, einschließlich Anweisungen, die OpenAIs ausgerichtetes Modell typischerweise ablehnen würde, wie z.B. das Detaillieren des Baus einer Waffe, das Auflisten von Obszönitäten oder das Planen illegaler Aktivitäten. In kurzen Tests stellte Morris auch fest, dass es wörtliche Passagen aus urheberrechtlich geschützten Werken reproduzieren konnte, darunter drei von sechs Buchauszügen, die er versuchte, was darauf hindeutet, dass einiges memorisiertes Material zugänglich bleibt. Trotzdem bleiben einige Spuren der Ausrichtung bestehen; wenn das Modell im Assistenten-Stil aufgefordert wird, kann es gelegentlich immer noch wie ein höflicher Chatbot agieren. Wenn es über die originale gpt-oss-Chat-Vorlage ausgeführt wird, kann es immer noch Denkaufgaben ausführen, wenn auch mit einem gewissen Qualitätsverlust. Für optimale Ergebnisse im Freitextmodus rät Morris, Prompts mit dem speziellen Anfangs-Sequenz-Token des Modells voranzustellen und Chat-Vorlagen vollständig zu vermeiden.
Die gpt-oss-Familie, bestehend aus den Modellen gpt-oss-120B und gpt-oss-20B, debütierte mit erheblicher Aufmerksamkeit. Diese textbasierten, mehrsprachigen Modelle basieren auf einer Mixture-of-Experts Transformer-Architektur und wurden unter der permissiven Apache 2.0-Lizenz veröffentlicht, die uneingeschränkte lokale Nutzung, Feinabstimmung und kommerzielle Bereitstellung erlaubt. OpenAIs Leistungsbenchmarks zeigten, dass das größere 120B-Modell sein proprietäres o4-mini bei Denk- und Werkzeugnutzungsaufgaben erreichte oder übertraf, während das kleinere 20B sich als konkurrenzfähig mit o3-mini erwies. Dies markierte OpenAIs erste Open-Weights-Veröffentlichung seit sechs Jahren, ein Schritt, der weithin als Reaktion auf den Wettbewerbsdruck anderer Open-Weights-Anbieter, einschließlich Chinas DeepSeek R1 und Qwen 3, interpretiert wurde. Das Unternehmen positionierte gpt-oss sowohl als Mittel, um Entwickler, die zu rivalisierenden Open-Source-Modellen migriert waren, wieder zu engagieren, als auch als Plattform für Sicherheitsforschung in Open-Weight-Systemen.
Die Reaktion der Entwickler auf OpenAIs gpt-oss-Modelle war gemischt. Befürworter lobten die permissive Lizenz, die Effizienz und das starke Abschneiden bei STEM-Benchmarks, wobei Clem Delangue, CEO von Hugging Face, es als “bedeutende Ergänzung des offenen Ökosystems” bezeichnete. Kritiker hingegen argumentierten, dass die Modelle stark auf synthetischen Daten trainiert zu sein schienen, was sie hervorragend in Mathematik und Codierung, aber weniger fähig in kreativem Schreiben, allgemeinem Weltwissen und mehrsprachigem Denken machte. Einige frühe Tester äußerten auch Bedenken hinsichtlich verbleibender Sicherheitsfilter und potenzieller geopolitischer Voreingenommenheit.
Vor diesem Hintergrund sticht Morris’ gpt-oss-20b-base als konkretes Beispiel dafür hervor, wie Open-Weight-Modelle innerhalb weniger Tage nach ihrer Veröffentlichung in freier Wildbahn angepasst und umfunktioniert werden können. Im starken Kontrast zur geteilten Aufnahme von OpenAIs gpt-oss waren die Reaktionen auf Morris’ Arbeit überwältigend positiv, wobei ein Informatiker auf X es als “das coolste, was ich in den letzten Monaten auf Twitter [X] gesehen habe” bezeichnete. Dieser Ansatz entfernt einen Großteil des Verhaltens, das OpenAI sorgfältig eingebaut hat, und bringt das Modell wieder näher an ein rohes, vortrainiertes System. Während es für Forscher, die Gedächtnis, Voreingenommenheit oder die Auswirkungen der Ausrichtung untersuchen, von unschätzbarem Wert ist, birgt es auch höhere Sicherheitsrisiken. Morris beabsichtigt, seine Forschung zur Wiederherstellung von Denkmodellen in ihre vortrainierten, nicht-denkenden Basisformen fortzusetzen, indem er seine Extraktionsmethode mit anderen Instruktionsmodellen, wie denen von Qwen, vergleicht.