Googles Gemma 3 270M: Winzige LLM für On-Device AI
Google hat eine bedeutende neue Ergänzung seiner „offenen“ Large Language Model (LLM)-Familie vorgestellt: Gemma 3 270M. Dieses winzige Modell, das nur 270 Millionen Parameter umfasst und etwa 550 MB Speicher benötigt, wurde entwickelt, um die On-Device-Bereitstellung zu revolutionieren und die Modelliteration zu beschleunigen. Seine Veröffentlichung ist mit den üblichen Branchenvorbehalten bezüglich potenzieller Halluzinationen, inkonsistenter Ausgaben und der allgegenwärtigen Frage nach urheberrechtlichen Auswirkungen aus seinen Trainingsdaten verbunden.
Die ursprüngliche Gemma-Familie, die im Februar 2024 eingeführt wurde, bot zwei Hauptversionen: ein Zwei-Milliarden-Parameter-Modell, das für die direkte Ausführung auf der zentralen Recheneinheit (CPU) eines Computers optimiert ist, und eine leistungsfähigere Sieben-Milliarden-Parameter-Variante, die auf Systeme mit Grafikprozessoren (GPUs) oder Googles Tensor Processing Units (TPUs) abzielt. Obwohl Google Gemma-Modelle im Gegensatz zu seiner proprietären Gemini-Serie als „offen“ positioniert, ist es wichtig zu beachten, dass sie, wie die meisten „offenen“ Modelle von Konkurrenten, weder den zugrunde liegenden Quellcode noch die rohen Trainingsdaten enthalten. Stattdessen erhalten Benutzer vortrainierte Modelle und ihre zugehörigen Gewichte – eine Eigenschaft, die auch für diesen neuesten Eintrag in das, was Google als „Gemmaverse“ bezeichnet, zutrifft.
Das neue, kleinere Gemma 3 270M-Modell ist speziell für den On-Device-Einsatz optimiert und kann mit minimalem RAM effizient ausgeführt werden. Google schlägt vor, dass es ideal für „große Mengen, gut definierte“ Aufgaben oder Szenarien ist, in denen „jede Millisekunde und jeder Mikro-Cent zählt“. Sein Design betont die schnelle Entwicklung, die sich aus der Geschwindigkeit ergibt, mit der es feinabgestimmt werden kann – ein Prozess, der ein vortrainiertes Modell für bestimmte Anwendungen anpasst. Diese Fähigkeit, so Google, kann zur mühelosen Erstellung „einer Flotte spezialisierter Aufgabenmodelle“ führen.
Interne Benchmarks, obwohl unbestätigt, zeigen, dass Gemma 3 270M ähnlich große Modelle wie SmollLM2-360M-Instruct und Qwen 2.5 0.5B Instruct auf dem IFEval-Anweisungsfolge-Benchmark übertrifft. Erwartungsgemäß liefert es eine deutlich geringere Leistung als das viermal größere Gemma 3 1B, mit einem Wert von 51,2 gegenüber 80,2 des letzteren. Google legt Wert darauf zu betonen, dass das 270M-Modell nicht für reine Leistung gebaut ist. Stattdessen ist sein Hauptverkaufsargument die Energieeffizienz. Wenn es auf INT4-Präzision quantisiert wird – ein Prozess, der die Präzision der numerischen Daten des Modells reduziert, um Speicher zu sparen und die Geschwindigkeit zu verbessern, wobei vorab bereitgestellte quantisierungsbewusste trainierte (QAT) Checkpoints eine minimale Leistungsbeeinträchtigung gegenüber INT8 gewährleisten – zeigten Googles interne Tests auf einem Pixel 9 Pro Smartphone einen Batterieverbrauch von lediglich 0,75 Prozentpunkten für 25 Gespräche unbestimmter Länge.
Der vielleicht überraschendste Aspekt dieses Miniaturmodells ist sein Trainingsdatensatz. Trotz seiner geringen Parameterzahl wurde das 270-Millionen-Parameter-Modell auf angeblich sechs Billionen Tokens trainiert – Text- und Datenfragmente, die zum Lehren der KI verwendet wurden. Das ist das Dreifache der für die 1-Milliarden-Parameter-Version verwendeten Daten und das Anderthalbfache der des 4-Milliarden-Parameter-Modells. Nur Googles größte Modelle mit 12 Milliarden und 27 Milliarden Parametern übertreffen es, trainiert auf 12 Billionen bzw. 14 Billionen Tokens. Wie alle anderen Gemma 3-Modelle hat der Datensatz ein „Wissensstichtagsdatum“ vom August 2024, was bedeutet, dass alle neueren Informationen während des Fine-Tunings oder durch direkte Prompts integriert werden müssten.
Das neue kompakte Modell ist, wie seine größeren Gemma-Vorgänger, kostenlos erhältlich. Seine Verwendung unterliegt jedoch einer Reihe von Einschränkungen, die in Googles Richtlinie zur verbotenen Nutzung aufgeführt sind. Ein Verstoß gegen diese Bedingungen berechtigt Google, den Zugriff auf alle Gemma-Dienste, die es vernünftigerweise für einen Verstoß hält, aus der Ferne oder auf andere Weise zu beschränken. Diese Einschränkungen umfassen ein Verbot der Generierung von Inhalten, die geistige Eigentumsrechte verletzen, die Beteiligung an gefährlichen, illegalen oder bösartigen Aktivitäten, die Ausübung von Medizin oder Buchhaltung ohne Lizenz oder die Generierung von Spam. Kontroverser ist, dass die Richtlinie auch „Versuche, Sicherheitsfilter zu umgehen oder zu überwinden“ und die Generierung von „sexuell expliziten Inhalten“ verbietet, wobei letzteres eine Ausnahmeregelung für Inhalte enthält, die zu wissenschaftlichen, pädagogischen, dokumentarischen oder künstlerischen Zwecken erstellt wurden. Für Entwickler, die mit diesem neuesten Modell im „Gemmaverse“ experimentieren möchten, ist es auf Plattformen wie Hugging Face, Ollama, Kaggle, LM Studio und Docker leicht verfügbar, wobei Google auch eine umfassende Anleitung zum Fine-Tuning des Modells für bestimmte Anwendungen bereitstellt.