Nvidia fordert Umstieg auf kleinere, effiziente LLMs für KI-Agenten

Decoder

Forscher von Nvidia fordern die künstliche Intelligenz-Industrie dringend auf, ihre Abhängigkeit von massiven großen Sprachmodellen (LLMs) für KI-Agenten-Systeme kritisch zu überdenken. Sie argumentieren, dass der aktuelle Kurs sowohl wirtschaftlich als auch ökologisch nicht nachhaltig ist. Stattdessen schlagen sie eine strategische Verschiebung hin zu kleineren, effizienteren Sprachmodellen vor, die sie als “Small Language Models” (SLMs) bezeichnen.

Die finanzielle Disparität, die dem aktuellen Ansatz zugrunde liegt, ist frappierend. Im Jahr 2024 wurde der Markt für LLM-APIs, die viele Agentensysteme antreiben, auf 5,6 Milliarden US-Dollar geschätzt. Die Cloud-Infrastrukturkosten, die zur Unterstützung dieser Systeme erforderlich waren, übertrafen diese Zahl jedoch bei Weitem und erreichten schätzungsweise 57 Milliarden US-Dollar – ein zehnfacher Unterschied. Dieses Betriebsmodell, das tief in der Branche verwurzelt ist, bildet die Grundlage für erhebliche Kapitalinvestitionen, wie die Forscher in ihrem kürzlich erschienenen Papier hervorheben.

Nvidias Team argumentiert, dass SLMs, definiert als Modelle mit weniger als 10 Milliarden Parametern, für die Mehrheit der KI-Agenten-Workloads oft “prinzipiell ausreichend leistungsfähig”, “inhärent betrieblich besser geeignet” und “notwendigerweise wirtschaftlicher” sind. Sie nennen überzeugende Beispiele: Microsofts Phi-2 soll trotz seiner bescheidenen Größe in Bezug auf Argumentation und Codegenerierung mit 30-Milliarden-Parameter-LLMs konkurrieren können, während es 15-mal schneller arbeitet. Ähnlich erreichen Nvidias eigene Nemotron-H-Modelle mit bis zu 9 Milliarden Parametern Berichten zufolge eine Genauigkeit, die mit 30-Milliarden-Parameter-LLMs vergleichbar ist, unter Verwendung deutlich geringerer Rechenleistung. Andere Modelle wie Deepseek-R1-Distill-Qwen-7B und DeepMinds RETRO werden ebenfalls als Beweis dafür angeführt, dass kleinere Systeme die Leistung wesentlich größerer proprietärer Modelle bei wichtigen Aufgaben erreichen oder sogar übertreffen können.

Die wirtschaftlichen Vorteile von SLMs sind besonders überzeugend. Der Betrieb eines 7-Milliarden-Parameter-Modells kann 10- bis 30-mal weniger kosten als der Betrieb eines 70- bis 175-Milliarden-Parameter-LLMs, eine Berechnung, die Latenz, Energieverbrauch und rohe Rechenanforderungen berücksichtigt. Darüber hinaus kann das Fine-Tuning eines SLMs für spezifische Anwendungen in nur wenigen GPU-Stunden erfolgen, ein starker Kontrast zu den Wochen, die oft für größere Modelle benötigt werden, was die Anpassung drastisch beschleunigt. Viele SLMs besitzen auch die Fähigkeit, lokal auf Consumer-Hardware zu laufen, was nicht nur die Latenz reduziert, sondern den Benutzern auch eine größere Kontrolle über ihre Datenprivatsphäre gewährt. Die Forscher weisen auch darauf hin, dass SLMs ihre Parameter tendenziell effizienter nutzen, während größere Modelle für jede gegebene Eingabe häufig nur einen kleinen Bruchteil ihrer riesigen Parameteranzahl aktivieren, was zu inhärenter Ineffizienz führt. Sie argumentieren, dass KI-Agenten, die im Wesentlichen “stark instruierte und extern choreografierte Gateways zu einem Sprachmodell” sind, selten das volle Spektrum an Fähigkeiten benötigen, das ein LLM bietet. Da die meisten Agentenaufgaben repetitiv, eng gefasst und nicht konversationsbasiert sind, stellen spezialisierte SLMs, die für diese spezifischen Formate feinabgestimmt sind, eine weitaus bessere Passform dar. Die Empfehlung ist klar: Baue heterogene Agentensysteme, die standardmäßig SLMs verwenden und größere Modelle nur für Situationen reservieren, die wirklich komplexe Argumentation erfordern.

Trotz dieser klaren Vorteile steht die Umstellung auf SLMs vor erheblichen Hürden. Nvidias Team identifiziert die hohen Investitionen der Branche in zentralisierte LLM-Infrastruktur, ihren allgegenwärtigen Fokus auf breite Benchmark-Ergebnisse und einen allgemeinen Mangel an öffentlichem Bewusstsein für die fortgeschrittenen Fähigkeiten kleinerer Modelle als primäre Barrieren. Um diesen Übergang zu erleichtern, schlagen sie einen Sechs-Schritte-Plan vor, der Datenerfassung und -kuratierung, Aufgaben-Clustering, geeignete SLM-Auswahl, Fine-Tuning für spezifische Bedürfnisse und kontinuierliche Verbesserung umfasst. Ihre Fallstudien deuten auf ein erhebliches Potenzial für diese Verschiebung hin und zeigen, dass zwischen 40 und 70 Prozent der LLM-Abfragen in beliebten Open-Source-Agenten wie MetaGPT, Open Operator und Cradle von SLMs genauso effektiv bearbeitet werden könnten.

Für viele stellt der Übergang zu SLMs nicht nur eine technische Verfeinerung dar, sondern auch, wie die Forscher es ausdrücken, ein “humeanisches moralisches Sollen”. Diese ethische Dimension wird angesichts steigender Betriebskosten und der wachsenden Umweltauswirkungen großer KI-Infrastrukturen zunehmend relevant, eine Sorge, die kürzlich durch Mistrals detaillierte Daten zum Energieverbrauch ihrer größten Modelle unterstrichen wurde. Es mag paradox erscheinen, dass Nvidia, ein Hauptnutznießer des LLM-Booms, kleinere Modelle befürwortet. Doch indem Nvidia für zugänglichere und effizientere KI plädiert, könnte das Unternehmen den gesamten KI-Markt erheblich erweitern und die Technologie tiefer in Unternehmen und Verbrauchergeräte integrieren. Das Unternehmen holt aktiv Feedback von der Community ein und plant, ausgewählte Antworten online zu veröffentlichen, was ein echtes Verlangen signalisiert, diesen entscheidenden Industriedialog zu fördern.