Hugging Face: 5 Wege für Unternehmen, KI-Kosten drastisch zu senken

Venturebeat

Unternehmen haben weitgehend akzeptiert, dass künstliche Intelligenzmodelle erhebliche Rechenleistung erfordern, was zu einer anhaltenden Suche nach mehr Ressourcen führt. Sasha Luccioni, KI- und Klimaexpertin bei Hugging Face, vertritt jedoch einen anderen Ansatz: Anstatt endlos nach mehr Rechenleistung zu suchen, sollten sich Organisationen auf eine intelligentere Nutzung konzentrieren, um die Modellleistung und -genauigkeit zu verbessern. Luccioni argumentiert, dass der aktuelle Branchenfokus fehlgeleitet ist, zu oft „geblendet vom Bedarf an mehr FLOPS, mehr GPUs und mehr Zeit“, während die wahre Chance in der Optimierung bestehender Fähigkeiten liegt.

Eine grundlegende Strategie ist die Anpassung der KI-Modellgröße an ihre spezifischen Aufgaben. Das standardmäßige Verwenden massiver, allgemeiner Modelle für jede Anwendung ist ineffizient. Stattdessen können aufgabenbezogene oder „destillierte“ Modelle oft die Genauigkeit ihrer größeren Gegenstücke für gezielte Arbeitslasten erreichen oder sogar übertreffen, während Kosten und Energieverbrauch erheblich reduziert werden. Luccionis Tests zeigten beispielsweise, dass ein aufgabenspezifisches Modell 20- bis 30-mal weniger Energie verbrauchen könnte als ein allgemeines Modell, gerade weil es für eine einzelne Funktion optimiert ist, anstatt zu versuchen, jede beliebige Anfrage zu bearbeiten. Destillation, ein Prozess, bei dem ein großes Modell zunächst trainiert und dann für eine engere Anwendung verfeinert wird, ist hier entscheidend. Ein vollständiges Modell wie DeepSeek R1 könnte acht GPUs erfordern, was es für viele Organisationen unerreichbar macht, während seine destillierten Versionen 10-, 20- oder sogar 30-mal kleiner sein können und auf einer einzigen GPU laufen können. Die wachsende Verfügbarkeit von Open-Source-Modellen trägt zusätzlich zur Effizienz bei, indem Unternehmen bestehende Basismodelle feinabstimmen können, anstatt Ressourcen für das Training von Grund auf zu verschwenden, wodurch ein kollaboratives Innovationsökosystem gefördert wird. Da Unternehmen zunehmend mit den unverhältnismäßigen Kosten von generativer KI im Vergleich zu ihren Vorteilen zu kämpfen haben, wird die Nachfrage nach spezifischen, hochwertigen KI-Anwendungen – was Luccioni als „spezifische Intelligenz“ statt allgemeiner KI bezeichnet – zur nächsten Grenze.

Neben der Modellauswahl ist es entscheidend, Systeme standardmäßig auf Effizienz auszulegen. Dies beinhaltet die Anwendung der „Nudge-Theorie“, eines Konzepts der Verhaltensökonomie, um rechnerische Entscheidungen zu beeinflussen. Durch die Festlegung konservativer Begründungsbudgets, die Begrenzung ständig aktiver generativer Funktionen und die Anforderung an Benutzer, sich für kostenintensive Computemodi zu entscheiden, können Organisationen das Verhalten subtil zu ressourcenschonenderen Praktiken lenken. Luccioni zitiert das Beispiel, Kunden zu fragen, ob sie Plastikbesteck zu Take-out-Bestellungen wünschen, was den Abfall drastisch reduziert. Ähnlich bemerkt sie, wie populäre Suchmaschinen automatisch KI-Zusammenfassungen generieren oder wie OpenAIs GPT-5 bei einfachen Anfragen standardmäßig in den vollständigen Begründungsmodus wechselt. Für häufige Fragen wie Wetteraktualisierungen oder Apothekenöffnungszeiten ist eine so umfangreiche Verarbeitung oft unnötig. Luccioni plädiert für einen Standard-„Keine Begründung“-Modus, wobei kostenintensive generative Funktionen komplexen, opt-in-Szenarien vorbehalten bleiben.

Die Optimierung der Hardwareauslastung ist ein weiterer entscheidender Bereich. Dies umfasst Praktiken wie das Bündeln von Anfragen, das Anpassen der Rechengenauigkeit und das Feinabstimmen der Batchgrößen speziell für die zugrunde liegende Hardwaregeneration. Unternehmen sollten kritisch prüfen, ob Modelle wirklich „immer eingeschaltet“ sein müssen oder ob periodische Läufe und Batch-Verarbeitung ausreichen könnten, wodurch die Speichernutzung optimiert wird. Luccioni betont, dass dies eine nuancierte technische Herausforderung ist; selbst eine leichte Erhöhung der Batchgröße kann den Energieverbrauch aufgrund erhöhter Speicheranforderungen erheblich steigern, was die Bedeutung akribischer Anpassungen, die auf spezifische Hardwarekontexte zugeschnitten sind, hervorhebt.

Um eine breitere Verlagerung hin zur Effizienz zu fördern, ist die Anreizung der Energietransparenz von entscheidender Bedeutung. Der „AI Energy Score“ von Hugging Face, der Anfang dieses Jahres eingeführt wurde, zielt genau darauf ab. Dieses neuartige 1- bis 5-Sterne-Bewertungssystem, ähnlich dem „Energy Star“-Programm für Haushaltsgeräte, bietet eine klare Metrik für die Energieeffizienz von Modellen, wobei Fünf-Sterne-Modelle die effizientesten darstellen. Hugging Face führt eine regelmäßig aktualisierte öffentliche Bestenliste, mit dem Ziel, die Bewertung als „Ehrenabzeichen“ zu etablieren, das Modellentwickler dazu anregt, energiebewusstes Design zu priorisieren.

Letztendlich münden diese Strategien in ein grundlegendes Umdenken der „mehr Rechenleistung ist besser“-Mentalität. Anstatt reflexartig die größten GPU-Cluster zu verfolgen, sollten Unternehmen zunächst fragen: „Was ist der intelligenteste Weg, um das gewünschte Ergebnis zu erzielen?“ Für viele Arbeitslasten werden überlegenes architektonisches Design und sorgfältig kuratierte Datensätze stets Brute-Force-Skalierung übertreffen. Luccioni betont, dass Organisationen wahrscheinlich weniger GPUs benötigen, als sie wahrnehmen, und fordert sie auf, die spezifischen Aufgaben, die KI erfüllen soll, wie solche Aufgaben zuvor gehandhabt wurden und die tatsächlichen inkrementellen Vorteile des Hinzufügens von mehr Rechenleistung neu zu bewerten. Der aktuelle „Wettlauf nach unten“ um größere Cluster muss einem strategischen Fokus auf zweckorientierte KI weichen, die die am besten geeigneten Techniken nutzt, anstatt einfach mehr rohe Verarbeitungsleistung anzuhäufen.