OpenAI: Open-Weight gpt-oss-Modelle für lokale KI
OpenAI hat gpt-oss-120b und gpt-oss-20b vorgestellt, seine ersten wirklich offenen (Open-Weight) Sprachmodelle seit GPT-2. Dies ist ein bedeutender Schritt zur Ermöglichung leistungsstarker KI-Argumentation und Werkzeugnutzung auf lokaler Hardware. Diese Modelle werden unter der permissiven Apache 2.0-Lizenz veröffentlicht, was eine breite Akzeptanz und Modifikation ermöglicht.
Das leistungsstärkere der beiden Modelle, gpt-oss-120b, nutzt eine Mixture-of-Experts (MoE)-Architektur, die 5,1 Milliarden Parameter pro Token aktiviert. Dieses Design ermöglicht es, die Leistung von OpenAIs proprietärem o4-mini-Modell bei kritischen Reasoning-Benchmarks zu erreichen oder sogar zu übertreffen, während es effizient auf einer einzigen 80-GB-GPU läuft. Sein kleineres Gegenstück, gpt-oss-20b, ist für eine größere Zugänglichkeit konzipiert und aktiviert 3,6 Milliarden seiner 21 Milliarden Parameter. Entscheidend ist, dass gpt-oss-20b auf Consumer-Hardware mit nur 16 GB Arbeitsspeicher betrieben werden kann, was es ideal für die On-Device-Inferenz oder schnelle Entwicklungszyklen ohne die Notwendigkeit einer Cloud-Infrastruktur macht.
Beide Modelle sind für fortgeschrittene KI-Anwendungen gerüstet und unterstützen ausgeklügelte Techniken wie Chain-of-Thought-Reasoning, integrierte Werkzeugnutzung und die Generierung strukturierter Ausgaben. Entwickler erhalten die Flexibilität, den Reasoning-Aufwand des Modells anzupassen, wodurch sie das Gleichgewicht zwischen Verarbeitungsgeschwindigkeit und Genauigkeit für spezifische Aufgaben feinabstimmen können.
Diese gpt-oss-Modelle wurden unter Verwendung von Trainingsmethoden entwickelt, die von OpenAIs internen o-Serien-Modellen adaptiert wurden, wobei Funktionen wie Rotary Positional Embeddings und Grouped Multi-Query Attention integriert wurden. Sie verfügen auch über beeindruckende Kontextlängen von bis zu 128k Tokens. Umfassende Evaluierungen in verschiedenen Bereichen, darunter Codierung (Codeforces), Gesundheit (HealthBench), Mathematik und Agenten-Benchmarks (MMLU, TauBench), zeigten ihre robusten Fähigkeiten, selbst im Vergleich zu geschlossenen Modellen wie o4-mini und GPT-4o.
Um die Forschung zum Modellverhalten und potenziellen Risiken zu fördern, hat OpenAI diese Modelle ohne direkte Überwachung ihrer Chain-of-Thought-Reasoning-Prozesse veröffentlicht. Dieser Ansatz ermöglicht es Forschern, die internen Reasoning-Spuren der Modelle offen auf Probleme wie Voreingenommenheit oder Missbrauch zu untersuchen. Um Sicherheitsbedenken proaktiv anzugehen, führte OpenAI eine strenge Worst-Case-Szenario-Feinabstimmung unter Verwendung adverser Daten durch, insbesondere in den sensiblen Bereichen Biologie und Cybersicherheit. Das Unternehmen berichtete, dass die Modelle selbst unter diesen anstrengenden Bedingungen keine Hochrisikofähigkeitsniveaus gemäß OpenAIs Preparedness Framework erreichten. Die Ergebnisse unabhängiger externer Expertenreviewer flossen ebenfalls in die endgültige Veröffentlichung ein. Um sein Engagement für Sicherheit weiter zu unterstreichen, hat OpenAI eine Red-Teaming-Herausforderung mit einem beträchtlichen Preispool von 500.000 US-Dollar ins Leben gerufen und lädt die Community ein, die Modelle in realen Szenarien rigoros zu testen.
Die gpt-oss-Modelle sind jetzt auf Plattformen wie Hugging Face und verschiedenen anderen Bereitstellungsdiensten weit verbreitet. Insbesondere das gpt-oss-20b-Modell zeichnet sich durch seine minimalen Hardwareanforderungen für die lokale Ausführung aus. Benutzer können es nach dem ersten Download ohne Internetverbindung auf einem Computer ausführen, wobei mindestens 16 GB RAM (entweder VRAM oder Systemspeicher) erforderlich sind. Zum Beispiel kann ein MacBook Air mit 16 GB RAM das Modell mit Geschwindigkeiten von Dutzenden von Tokens pro Sekunde ausführen, während eine moderne GPU Hunderte von Tokens pro Sekunde erreichen kann. Microsoft trägt ebenfalls zur Zugänglichkeit des 20B-Modells bei, indem es GPU-optimierte Versionen für Windows über ONNX Runtime bereitstellt und es über Foundry Local und das AI Toolkit für VS Code verfügbar macht.