OpenAIs neue Open-Source-LLMs: Begeisterung trifft Skepsis

Venturebeat

OpenAI, ein Unternehmen, dessen Name bereits Offenheit impliziert, vollzog kürzlich eine bedeutende Wende, indem es zwei neue große Sprachmodelle (LLMs), gpt-oss-120B und gpt-oss-20B, unter der freizügigen Apache 2.0 Open-Source-Lizenz veröffentlichte. Dieser Schritt markiert das erste Mal seit 2019, dass OpenAI ein hochmodernes Sprachmodell für die uneingeschränkte Nutzung öffentlich zugänglich gemacht hat, was eine bemerkenswerte Abkehr vom proprietären, Closed-Source-Ansatz signalisiert, der die ChatGPT-Ära in den letzten 2,7 Jahren definiert hat. In diesem Zeitraum zahlten Nutzer typischerweise für den Zugang zu OpenAIs Modellen, mit begrenzter Anpassung und ohne die Möglichkeit, sie offline oder auf privater Hardware zu betreiben.

Die neuen gpt-oss-Modelle zielen darauf ab, den Zugang zu leistungsstarker KI zu demokratisieren. Das größere gpt-oss-120B ist für den Einsatz auf einer einzelnen Nvidia H100 GPU konzipiert und eignet sich für kleine bis mittelgroße Unternehmensrechenzentren, während sein kleineres Pendant, gpt-oss-20B, leicht genug ist, um auf einem Verbraucher-Laptop zu laufen. Doch obwohl beeindruckende technische Benchmarks erreicht wurden, die mit OpenAIs eigenen leistungsstarken proprietären Angeboten übereinstimmen, hat die breitere KI-Entwickler- und Benutzergemeinschaft mit einer bemerkenswert vielfältigen Meinungsvielfalt reagiert, ähnlich einer Filmpremiere, die auf einem Bewertungsaggregator eine nahezu 50/50-Teilung erhält.

Erste unabhängige Tests haben Rückmeldungen ergeben, die zwischen optimistischem Enthusiasmus und einer unterschwelligen Unzufriedenheit schwanken. Ein Großteil der Kritik rührt von direkten Vergleichen mit der wachsenden Welle leistungsstarker, multimodaler LLMs her, die von chinesischen Startups stammen und ebenfalls Apache 2.0-lizenziert sind und weltweit frei angepasst und lokal ausgeführt werden können.

Während Intelligenz-Benchmarks der unabhängigen Firma Artificial Analysis gpt-oss-120B als “das intelligenteste amerikanische Open-Weights-Modell” positionieren, bleibt es immer noch hinter chinesischen Schwergewichten wie DeepSeek R1 und Qwen3 235B zurück. Diese Diskrepanz hat die Skepsis geschürt. Ein selbsternannter DeepSeek-Enthusiast, @teortaxesTex, bemerkte, dass die Modelle lediglich “auf Benchmarks getrimmt” zu sein scheinen, und sagte einen Mangel an guten Derivatmodellen oder neuen Anwendungsfällen voraus. Der pseudonyme Open-Source-KI-Forscher Teknium, Mitbegründer von Nous Research, schloss sich dem an, bezeichnete die Veröffentlichung als “legitimen Nothing Burger” und drückte tiefe Enttäuschung aus, indem er einen schnellen Schattenwurf durch einen chinesischen Konkurrenten erwartete.

Weitere Kritikpunkte konzentrierten sich auf den wahrgenommenen engen Nutzen der gpt-oss-Modelle. KI-Influencer “Lisan al Gaib” bemerkte, dass die Modelle zwar in Mathematik und Codierung hervorragend sind, ihnen aber “völlig Geschmack und gesunder Menschenverstand fehlen”, was ihre breitere Anwendbarkeit in Frage stellt. Dieser “Bench-Maxxing”-Ansatz, bei dem stark für spezifische Benchmarks optimiert wird, führt Berichten zufolge zu ungewöhnlichen Ausgaben; Teknium teilte einen Screenshot, der zeigte, wie das Modell während kreativer Schreibtests mitten in einem Gedicht eine Integralformel einfügte. Forscher wie @kalomaze von Prime Intellect und der ehemalige Googler Kyle Corbitt spekulierten, dass die gpt-oss-Modelle wahrscheinlich überwiegend mit synthetischen Daten trainiert wurden – KI-generierte Daten, die speziell für das Training neuer Modelle verwendet werden. Dieser Ansatz, der möglicherweise zur Umgehung von Urheberrechtsproblemen oder zur Vermeidung von Sicherheitsproblemen im Zusammenhang mit realen Daten gewählt wurde, führt zu Modellen, die “extrem spiky” sind, d.h. bei trainierten Aufgaben wie Codierung und Mathematik außergewöhnlich gut abschneiden, aber bei stärker sprachlichen Aufgaben wie kreativem Schreiben oder Berichtserstellung schlecht.

Auch bei Drittanbieter-Benchmark-Evaluierungen traten Bedenken auf. SpeechMap, das die Einhaltung von Benutzeraufforderungen durch LLMs für nicht zulässige oder sensible Ausgaben bewertet, zeigte, dass gpt-oss-120B unter 40 % lag, nahe am unteren Ende seiner Vergleichsgruppe, was auf eine starke Tendenz hinweist, auf interne Schutzmechanismen zurückzugreifen. In Aiders Polyglot-Evaluierung erreichte gpt-oss-120B nur 41,8 % beim mehrsprachigen Denken und lag damit deutlich hinter den Konkurrenten. Einige Benutzer berichteten auch von einem ungewöhnlichen Widerstand gegen die Generierung von Kritik an China oder Russland, im Gegensatz zur Behandlung der USA und der EU, was Fragen zu potenziellen Verzerrungen in ihren Trainingsdaten aufwirft.

Trotz dieser Kritik waren nicht alle Reaktionen negativ. Der Softwareentwickler Simon Willison lobte die Veröffentlichung als “wirklich beeindruckend” und hob die Effizienz der Modelle und ihre Fähigkeit hervor, Parität mit OpenAIs proprietären o3-mini- und o4-mini-Modellen zu erreichen. Er lobte ihre starke Leistung bei Denk- und STEM-lastigen Benchmarks, zusammen mit der innovativen “Harmony”-Prompt-Vorlage und der Unterstützung für die Verwendung von Drittanbieter-Tools. Clem Delangue, CEO von Hugging Face, mahnte zur Geduld und schlug vor, dass frühe Probleme auf Infrastrukturinstabilität und unzureichende Optimierung zurückzuführen sein könnten. Er betonte, dass “die Macht von Open Source darin besteht, dass es kein Betrug gibt”, und versicherte, dass die wahren Stärken und Grenzen der Modelle schrittweise aufgedeckt würden.

Ethan Mollick, Professor an der Wharton School, räumte ein, dass die USA nun wahrscheinlich führende Open-Weights-Modelle besitzen, stellte jedoch OpenAIs langfristiges Engagement in Frage und bemerkte, dass dieser Vorsprung “schnell verdampfen” könnte, wenn dem Unternehmen Anreize fehlen, die Modelle aktuell zu halten. Nathan Lambert, ein prominenter KI-Forscher am Allen Institute for AI (Ai2), würdigte die symbolische Bedeutung der Veröffentlichung für das offene Ökosystem, insbesondere für westliche Nationen, und erkannte den bedeutenden Schritt der bekanntesten KI-Marke an, die zu Open Releases zurückkehrt. Er warnte jedoch, dass gpt-oss chinesische Konkurrenten wie Qwen aufgrund ihrer bestehenden Nutzbarkeit und Vielfalt “unwahrscheinlich nennenswert verlangsamen” wird. Lambert schloss damit, dass die Veröffentlichung zwar eine entscheidende Verschiebung in den USA hin zu offenen Modellen markiert, OpenAI aber noch “einen langen Weg zurück” hat, um in der Praxis wirklich aufzuholen.