OpenAI stellt Open-Weight LLMs vor: gpt-oss-120B & gpt-oss-20B

2025-08-05T23:53:39.000ZMarktechpost

OpenAI hat die Veröffentlichung von zwei neuen Open-Weight-Sprachmodellen, gpt-oss-120B und gpt-oss-20B, angekündigt, was eine bedeutende Verschiebung im Ansatz des Unternehmens zur KI-Distribution darstellt. Dieser Schritt ermöglicht es jedem, diese Modelle auf der eigenen Hardware herunterzuladen, zu inspizieren, feinabzustimmen und auszuführen, wodurch eine neue Ära der Transparenz, Anpassbarkeit und Rechenleistung für Forscher, Entwickler und Enthusiasten gefördert wird.

Eine neue Richtung für OpenAI

Historisch gesehen war OpenAI dafür bekannt, hochleistungsfähige KI-Modelle zu entwickeln, während die zugrunde liegende Technologie weitgehend proprietär gehalten wurde. Die Veröffentlichung von gpt-oss-120B und gpt-oss-20B unter der permissiven Apache 2.0 Lizenz signalisiert eine bemerkenswerte Änderung. Dieser Open-Source-Ansatz ermöglicht es Benutzern, OpenAI-Modelle lokal bereitzustellen, von Unternehmensumgebungen bis hin zu persönlichen Geräten, ohne sich ausschließlich auf Cloud-APIs verlassen zu müssen.

Vorstellung der Modelle: Fähigkeiten und Zugänglichkeit

gpt-oss-120B: Dieses größere Modell verfügt über 117 Milliarden Parameter und nutzt eine Mixture-of-Experts (MoE)-Architektur, die pro Token etwa 5,1 Milliarden Parameter für Effizienz aktiviert. Seine Leistung wird als vergleichbar oder sogar überlegen zu OpenAIs o4-mini in realen Benchmarks angegeben. Das Modell ist so konzipiert, dass es auf einer einzelnen High-End-GPU, wie einer Nvidia H100 oder einer 80-GB-Karte, läuft, wodurch keine umfangreichen Serverfarmen erforderlich sind.

Zu den Hauptfähigkeiten gehören Chain-of-Thought- und Agentic-Reasoning, wodurch es für Aufgaben wie Forschungsautomatisierung, technisches Schreiben und Code-Generierung geeignet ist. Benutzer können den "Reasoning Effort" (niedrig, mittel, hoch) konfigurieren, um Leistung und Ressourcenverbrauch auszugleichen. Darüber hinaus verfügt gpt-oss-120B über ein umfangreiches Kontextfenster von bis zu 128.000 Tokens, wodurch es große Textmengen, ähnlich ganzen Büchern, verarbeiten kann. Es ist auch für einfaches Fine-Tuning und lokale Inferenz konzipiert und bietet vollständige Datenprivatsphäre und Bereitstellungskontrolle ohne Ratenbegrenzungen.

gpt-oss-20B: Mit 21 Milliarden Parametern (und 3,6 Milliarden aktiven Parametern pro Token, ebenfalls unter Nutzung von MoE) bietet gpt-oss-20B eine robuste Leistung für ein kleineres Modell und positioniert es bei Reasoning-Aufgaben zwischen o3-mini und o4-mini. Ein herausragendes Merkmal ist seine Fähigkeit, auf Consumer-Hardware zu laufen, einschließlich Laptops mit nur 16 GB RAM, was es zu einem der leistungsstärksten Open-Weight-Reasoning-Modelle macht, das auf einem Telefon oder lokalen PC laufen kann.

Dieses Modell ist speziell für latenzarme, private On-Device-KI optimiert und unterstützt Smartphones (einschließlich Qualcomm Snapdragon), Edge-Geräte und Szenarien, die eine lokale Inferenz ohne Cloud-Abhängigkeit erfordern. Wie sein größerer Bruder besitzt gpt-oss-20B Agentic-Fähigkeiten, die es ihm ermöglichen, APIs zu verwenden, strukturierte Ausgaben zu generieren und Python-Code bei Bedarf auszuführen.

Technische Grundlagen: Effizienz und Portabilität

Beide gpt-oss-Modelle nutzen eine Mixture-of-Experts (MoE)-Architektur. Dieses Design aktiviert für jedes verarbeitete Token nur wenige ausgewählte "Experten"-Subnetzwerke, wodurch die Modelle eine große Gesamtparameterzahl aufweisen können, während der Speicherverbrauch bescheiden bleibt und schnelle Inferenzgeschwindigkeiten erzielt werden. Dies macht sie äußerst effizient für moderne Consumer- und Enterprise-Hardware.

Zusätzlich integrieren die Modelle die native MXFP4-Quantisierung, eine Technik, die ihren Speicherbedarf erheblich reduziert, ohne die Genauigkeit zu beeinträchtigen. Diese Optimierung ist entscheidend, damit gpt-oss-120B auf eine einzelne fortschrittliche GPU passt und gpt-oss-20B problemlos auf Laptops, Desktops und sogar mobilen Geräten läuft.

Praktische Auswirkungen und Anwendungen

Die Veröffentlichung dieser Open-Weight-Modelle hat weitreichende Auswirkungen in verschiedenen Sektoren:

  • Für Unternehmen: Die Möglichkeit, Modelle On-Premise bereitzustellen, gewährleistet eine verbesserte Datenprivatsphäre, Sicherheit und Compliance, insbesondere für sensible Branchen wie Finanzen, Gesundheitswesen und Recht. Dies eliminiert die Abhängigkeit von Black-Box-Cloud-KI und ermöglicht es Organisationen, die vollständige Kontrolle über ihre LLM-Workflows zu behalten.
  • Für Entwickler: Es bietet eine beispiellose Freiheit zum Experimentieren, Feinabstimmen und Erweitern von KI-Fähigkeiten. Entwickler können ohne API-Limits oder wiederkehrende SaaS-Rechnungen arbeiten und erhalten die vollständige Kontrolle über Latenz und Kosten.
  • Für die Community: Die Modelle sind auf Plattformen wie Hugging Face und Ollama leicht verfügbar, was einen schnellen Download und eine schnelle Bereitstellung ermöglicht und die gemeinschaftsgetriebene Innovation beschleunigt.

Neue Maßstäbe für Open-Weight-Modelle setzen

gpt-oss-120B sticht als das erste frei verfügbare Open-Weight-Modell hervor, das Leistungsniveaus erreicht, die mit Top-Tier-Kommerzmodellen wie OpenAIs o4-mini vergleichbar sind. Die gpt-oss-20B-Variante wird voraussichtlich die Leistungslücke für On-Device-KI schließen, die Grenzen des Möglichen mit lokalen Großen Sprachmodellen verschieben und erhebliche Innovationen in diesem Bereich fördern.

OpenAIs GPT-OSS-Veröffentlichung steht für ein Engagement zur Öffnung fortschrittlicher KI-Fähigkeiten. Durch die Zugänglichmachung von modernstem Reasoning, Tool-Nutzung und Agentic-Funktionalitäten zur Inspektion und Bereitstellung lädt OpenAI eine breitere Gemeinschaft von Machern, Forschern und Unternehmen ein, diese Modelle nicht nur zu nutzen, sondern aktiv darauf aufzubauen, zu iterieren und sie weiterzuentwickeln.

OpenAI stellt Open-Weight LLMs vor: gpt-oss-120B & gpt-oss-20B - OmegaNext KI-Nachrichten