Offene KI-Modelle: Höherer Rechenaufwand als gedacht?
Eine neue umfassende Studie hat eine erhebliche Herausforderung für die vorherrschende Annahme aufgedeckt, dass Open-Source-Modelle der künstlichen Intelligenz klare wirtschaftliche Vorteile gegenüber ihren proprietären Gegenstücken bieten. Untersuchungen des KI-Unternehmens Nous Research deuten darauf hin, dass Open-Source-Modelle wesentlich mehr Rechenressourcen verbrauchen, um identische Aufgaben auszuführen, was ihre wahrgenommenen Kostenvorteile zunichtemachen und eine Neubewertung der KI-Bereitstellungsstrategien von Unternehmen erforderlich machen könnte.
Die Studie, die 19 verschiedene KI-Modelle über ein Spektrum von Aufgaben, einschließlich grundlegender Wissensfragen, mathematischer Probleme und Logikrätsel, analysierte, fand heraus, dass Open-Weight-Modelle zwischen 1,5- und 4-mal mehr Tokens – die grundlegenden Einheiten der KI-Berechnung – verwenden als geschlossene Modelle von Entwicklern wie OpenAI und Anthropic. Diese Disparität war bei einfachen Wissensabfragen besonders ausgeprägt, wo einige offene Modelle bis zu 10-mal mehr Tokens verbrauchten. Die Forscher stellten in ihrem Bericht fest, dass Open-Source-Modelle zwar typischerweise geringere Kosten pro Token aufweisen, dieser Vorteil jedoch „leicht ausgeglichen werden kann, wenn sie mehr Tokens benötigen, um über ein gegebenes Problem nachzudenken“, wodurch sie pro Abfrage potenziell teurer werden.
Eine Schlüsselmetrik, die untersucht wurde, war die „Token-Effizienz“, die misst, wie viele Recheneinheiten Modelle relativ zur Komplexität ihrer Lösungen verwenden. Diese Metrik hat trotz ihrer tiefgreifenden Kostenauswirkungen bisher wenig systematische Studien erfahren. Die Ineffizienz ist besonders ausgeprägt bei großen Reasoning-Modellen (LRMs), die erweiterte „Gedankenketten“ – schrittweise Denkprozesse – verwenden, um komplexe Probleme zu lösen. Diese Modelle können überraschenderweise Hunderte oder sogar Tausende von Tokens verbrauchen, um über einfache Fragen nachzudenken, die minimale Berechnung erfordern sollten, wie zum Beispiel „Was ist die Hauptstadt Australiens?“.
Die Forschung offenbarte frappierende Effizienzunterschiede zwischen den Modellanbietern. OpenAIs Modelle, einschließlich ihrer o4-mini- und neu veröffentlichten Open-Source-gpt-oss-Varianten, zeigten eine außergewöhnliche Token-Effizienz, insbesondere bei mathematischen Problemen, indem sie bis zu dreimal weniger Tokens verwendeten als andere kommerzielle Modelle. Unter den Open-Source-Optionen erwies sich Nvidias llama-3.3-nemotron-super-49b-v1 als das Token-effizienteste Modell in allen Bereichen, während neuere Modelle von Unternehmen wie Magistral einen außergewöhnlich hohen Token-Verbrauch aufwiesen und als Ausreißer hervorstachen. Während offene Modelle etwa doppelt so viele Tokens für mathematische und logische Probleme verwendeten, vergrößerte sich die Lücke bei einfachen Wissensfragen, bei denen umfangreiches Denken unnötig sein sollte, dramatisch.
Diese Ergebnisse haben unmittelbare und signifikante Auswirkungen auf die Einführung von KI in Unternehmen, wo die Rechenkosten mit der Nutzung schnell eskalieren können. Unternehmen, die KI-Modelle evaluieren, priorisieren oft Genauigkeitsbenchmarks und Preisgestaltung pro Token, übersehen aber häufig den gesamten Rechenbedarf für reale Aufgaben. Die Studie kam zu dem Schluss, dass „die bessere Token-Effizienz von Closed-Weight-Modellen oft die höheren API-Preise dieser Modelle kompensiert“, wenn die gesamten Inferenzkosten analysiert werden. Dies deutet darauf hin, dass proprietäre Modellanbieter ihre Angebote aktiv auf Effizienz optimiert haben, indem sie den Token-Verbrauch iterativ reduzierten, um die Inferenzkosten zu senken. Umgekehrt zeigten einige Open-Source-Modelle in neueren Versionen einen erhöhten Token-Verbrauch, was möglicherweise eine Priorisierung besserer Denkfähigkeiten gegenüber rechnerischer Sparsamkeit widerspiegelt.
Die Messung der Effizienz über verschiedene Modellarchitekturen hinweg stellte einzigartige Herausforderungen dar, insbesondere da viele Closed-Source-Modelle ihre rohen Denkprozesse nicht offenlegen. Um dies zu umgehen, verwendeten die Forscher „Completion Tokens“ – die gesamten berechneten Recheneinheiten pro Abfrage – als Proxy für den Denkaufwand. Sie entdeckten, dass die meisten neueren Closed-Source-Modelle komprimierte Zusammenfassungen ihrer internen Berechnungen liefern, oft unter Verwendung kleinerer Sprachmodelle, um komplexe Gedankenketten zu transkribieren und so ihre proprietären Techniken zu schützen. Die Methodik der Studie umfasste auch Tests mit modifizierten Versionen bekannter Probleme, wie der Änderung von Variablen in mathematischen Wettbewerbsaufgaben, um den Einfluss von auswendig gelernten Lösungen zu minimieren.
Mit Blick auf die Zukunft plädieren die Forscher dafür, dass die Token-Effizienz neben der Genauigkeit zu einem primären Optimierungsziel in der zukünftigen Modellentwicklung wird. Sie schlagen vor, dass eine „dichtere CoT“ eine effizientere Kontextnutzung ermöglicht und der Kontextverschlechterung bei anspruchsvollen Denkaufgaben entgegenwirken könnte. Das Aufkommen von OpenAIs Open-Source-gpt-oss-Modellen, die modernste Effizienz mit frei zugänglichen Gedankenketten kombinieren, könnte als entscheidender Referenzpunkt für die Optimierung anderer Open-Source-Modelle dienen. Während die KI-Industrie auf immer leistungsfähigere Denkfähigkeiten zusteuert, unterstreicht diese Studie, dass der wahre Wettbewerb möglicherweise nicht nur darum geht, wer die intelligenteste KI baut, sondern wer die effizienteste bauen kann. Schließlich könnten in einem Ökosystem, in dem jeder Token zählt, die verschwenderischsten Modelle, unabhängig von ihrer intellektuellen Leistungsfähigkeit, letztendlich vom Markt verdrängt werden.