OpenAI kehrt mit gpt-oss-120b und 20b LLMs zu Open Source zurück

Analyticsvidhya

OpenAI hat mit der Veröffentlichung von zwei neuen großen Sprachmodellen (LLMs): gpt-oss-120b und gpt-oss-20b, eine bedeutende Rückkehr zu seinen Open-Source-Wurzeln vollzogen. Diese Modelle repräsentieren OpenAIs erste offen lizenzierte LLMs seit dem bahnbrechenden GPT-2 und signalisieren ein erneutes Engagement für den Community-Zugang und die kollaborative Entwicklung. Die mit großer Erwartung in der Künstliche-Intelligenz-Gemeinschaft eingeführten gpt-oss-Modelle sind darauf ausgelegt, neue Maßstäbe für Denkfähigkeiten und integrierte Werkzeugnutzung zu setzen, alles unter der permissiven Apache 2.0 Lizenz. Diese Lizenzwahl ist entscheidend, da sie Entwicklern und Organisationen die freie Nutzung und Anpassung der Modelle für Forschungs- und kommerzielle Anwendungen ermöglicht, ohne Lizenzgebühren zu verursachen oder an Copyleft-Beschränkungen gebunden zu sein.

Die gpt-oss-Modelle zeichnen sich durch mehrere innovative Funktionen aus. Ein einzigartiger Aspekt sind ihre konfigurierbaren Denkebenen, die es Benutzern ermöglichen, festzulegen, ob das Modell Denkprozesse geringer, mittlerer oder hoher Tiefe durchführen soll, um Geschwindigkeit und analytische Genauigkeit auszugleichen. Im Gegensatz zu vielen proprietären Modellen bietet gpt-oss auch vollen Chain-of-Thought-Zugriff, der transparente Einblicke in seine internen Denkprozesse ermöglicht. Dies erlaubt es Benutzern, die analytischen Pfade des Modells zu inspizieren oder zu filtern, was bei der Fehlersuche und dem Aufbau von Vertrauen in die Ausgabe hilft. Darüber hinaus sind diese Modelle mit nativen Agentenfähigkeiten ausgestattet, was bedeutet, dass sie von Natur aus für die Befolgung von Anweisungen konzipiert sind und integrierte Unterstützung für die Verwendung externer Tools während ihrer Denkprozesse besitzen.

Im Kern sind beide gpt-oss-Modelle Transformer-basierte Netzwerke, die ein Mixture-of-Experts (MoE)-Design verwenden. Diese Architektur ermöglicht Recheneffizienz, indem für jedes Eingabe-Token nur eine Untergruppe der vollständigen Parameter – oder „Experten“ – aktiviert wird. Das größere gpt-oss-120b verfügt über 117 Milliarden Gesamtparameter über 36 Schichten, mit ungefähr 5,1 Milliarden aktiven Parametern pro Token, die aus 128 Experten-Subnetzwerken stammen. Das kompaktere gpt-oss-20b verfügt über 21 Milliarden Gesamtparameter über 24 Schichten, wobei 32 Experten verwendet werden, um etwa 3,6 Milliarden aktive Parameter pro Token zu erreichen. Beide Modelle integrieren fortschrittliche Funktionen wie Rotary Positional Embeddings (RoPE), um umfangreiche Kontextfenster von bis zu 128.000 Token zu verarbeiten, und gruppierte Multi-Query-Attention, um die Speichernutzung zu optimieren und gleichzeitig eine schnelle Inferenz aufrechtzuerhalten. Ein wichtiger Faktor für ihre Zugänglichkeit ist die standardmäßige 4-Bit-MXFP4-Quantisierung, die es dem 120B-Modell ermöglicht, auf eine einzelne 80GB-GPU zu passen, und dem 20B-Modell auf einen bescheideneren 16GB-GPU-Speicher, wodurch der Genauigkeitsverlust minimiert wird.

Die Hardwareanforderungen variieren erheblich zwischen den beiden Modellen. Das gpt-oss-120b erfordert High-End-GPUs, typischerweise 80-100GB VRAM, wodurch es für einzelne A100/H100-Klasse-GPUs oder Multi-GPU-Setups geeignet ist. Im Gegensatz dazu ist das gpt-oss-20b deutlich leichter und läuft effizient mit etwa 16GB VRAM, wodurch es auf Laptops oder Apple Silicon lauffähig ist. Beide Modelle unterstützen ihre beeindruckenden 128.000-Token-Kontextfenster, obwohl die Verarbeitung solch langer Eingaben rechenintensiv bleibt. Diese Modelle können über beliebte Frameworks wie Hugging Face Transformers, vLLM für Hochdurchsatz-Serving, Ollama für lokale Chat-Server und Llama.cpp für CPU- oder ARM-basierte Umgebungen eingesetzt werden, was eine breite Zugänglichkeit für Entwickler gewährleistet.

In praktischen Tests zeigte das gpt-oss-120b durchweg überlegene Fähigkeiten bei komplexen Denkaufgaben, wie symbolischen Analogien, bei denen es methodisch korrekte Antworten ableitete. Das gpt-oss-20b, obwohl effizient, hatte manchmal Schwierigkeiten mit dem gleichen Niveau an komplexer Logik oder Ausgabelängenbeschränkungen, was den Vorteil des größeren Modells in anspruchsvollen Szenarien unterstreicht. Zum Beispiel lieferte das 120B-Modell bei C+±Code-Generierungsaufgaben, die eine spezifische Zeitkomplexität erforderten, eine robuste und effiziente Lösung, während die Ausgabe des 20B-Modells weniger vollständig war oder Schwierigkeiten mit den gegebenen Einschränkungen hatte.

Auf Standard-Benchmarks schneiden beide Modelle lobenswert ab. Das gpt-oss-120b erzielt typischerweise höhere Punktzahlen als sein 20B-Pendant bei anspruchsvollen Denk- und Wissensaufgaben wie MMLU und GPQA Diamond, was seine verbesserten Fähigkeiten zeigt. Das gpt-oss-20b lieferte jedoch auch eine starke Leistung, insbesondere bei den AIME-Mathematik-Wettbewerbsaufgaben, bei denen es dem 120B fast ebenbürtig war, was seine überraschende Leistungsfähigkeit in bestimmten Bereichen trotz seiner geringeren Größe zeigt. Das 120B-Modell ist vergleichbar mit OpenAIs internem o4-mini-Modell, während das 20B-Modell in vielen Benchmarks der Qualität des o3-mini entspricht.

Die Wahl zwischen den beiden Modellen hängt weitgehend von den Projektanforderungen und den verfügbaren Ressourcen ab. Das gpt-oss-120b ist die erste Wahl für die anspruchsvollsten Aufgaben, einschließlich komplexer Code-Generierung, fortgeschrittener Problemlösung und tiefer domänenspezifischer Abfragen, vorausgesetzt, die notwendige High-End-GPU-Infrastruktur ist verfügbar. Das gpt-oss-20b hingegen ist ein effizientes Arbeitspferd, optimiert für Szenarien, die Geschwindigkeit und geringeren Ressourcenverbrauch erfordern, wie z.B. On-Device-Anwendungen, Chatbots mit geringer Latenz oder Tools, die Web-Suche und Python-Aufrufe integrieren. Es dient als ausgezeichnete Option für die Proof-of-Concept-Entwicklung, mobile Anwendungen oder Umgebungen mit Hardwarebeschränkungen und liefert oft eine ausreichende Qualität für viele reale Anwendungen.

Die gpt-oss-Modelle erschließen eine breite Palette von Anwendungen. Sie sind hochwirksam für die Inhaltserstellung und -umschreibung, können ihre Denkprozesse erklären, was Schriftstellern und Journalisten erheblich helfen kann. Im Bildungsbereich können sie Konzepte Schritt für Schritt demonstrieren, Feedback geben und Tutor-Tools betreiben. Ihre robusten Code-Generierungs-, Debugging- und Erklärungsfähigkeiten machen sie zu unschätzbaren Code-Assistenten. Für die Forschung können sie Dokumente zusammenfassen, domänenspezifische Fragen beantworten und Daten analysieren, wobei das größere Modell besonders gut für die Feinabstimmung in spezialisierten Bereichen wie Recht oder Medizin geeignet ist. Schließlich erleichtern ihre nativen Agentenfähigkeiten die Erstellung autonomer Agenten, die das Web durchsuchen, mit APIs interagieren oder Code ausführen können, nahtlos in komplexe, schrittbasierte Workflows integriert.

Zusammenfassend markiert die Veröffentlichung der gpt-oss-Modelle einen entscheidenden Moment für OpenAI und das gesamte KI-Ökosystem, indem sie den Zugang zu leistungsstarken Sprachmodellen demokratisiert. Während das gpt-oss-120b seinen kleineren Geschwistern durchweg überlegen ist – schärfere Inhalte liefert, schwierigere Probleme löst und in komplexen Denkprozessen hervorragend ist – stellt seine Ressourcenintensität eine Bereitstellungsherausforderung dar. Das gpt-oss-20b bietet jedoch ein überzeugendes Gleichgewicht zwischen Qualität und Effizienz, wodurch fortschrittliche KI auf bescheidenerer Hardware zugänglich wird. Dies ist nicht nur ein inkrementelles Upgrade; es stellt einen bedeutenden Sprung dar, um hochmoderne KI-Fähigkeiten einer breiteren Gemeinschaft zugänglich zu machen und so Innovationen und Anwendungsentwicklung zu fördern.

OpenAI kehrt mit gpt-oss-120b und 20b LLMs zu Open Source zurück - OmegaNext KI-Nachrichten