OpenAIs gpt-oss-20b LLM lokal ausführen: Eine Anleitung

Theregister

OpenAI hat kürzlich die Zugänglichkeit seiner großen Sprachmodelle (LLMs) verbessert, indem es zwei „Open-Weight“-Modelle, gpt-oss-20b und gpt-oss-120b, veröffentlichte. Dies ermöglicht es Benutzern, diese fortschrittlichen KI-Tools direkt auf ihren persönlichen Computern herunterzuladen und auszuführen. Diese Entwicklung markiert einen wichtigen Schritt zur Demokratisierung des Zugangs zu fortschrittlicher KI und erlaubt es Benutzern, leistungsstarke Modelle zu nutzen, ohne auf Cloud-Infrastruktur angewiesen zu sein.

Das kleinere der beiden Modelle, gpt-oss-20b, verfügt über 21 Milliarden Parameter – ein Maß für seine Komplexität und Größe – und benötigt etwa 16 GB freien Arbeitsspeicher, um zu funktionieren. Sein größerer Bruder, gpt-oss-120b, ist ein wesentlich anspruchsvolleres Modell mit 117 Milliarden Parametern, das satte 80 GB Arbeitsspeicher erfordert. Zum Vergleich: Ein hochmodernes „Frontier“-Modell wie DeepSeek R1 verfügt über 671 Milliarden Parameter und benötigt etwa 875 GB Arbeitsspeicher, was erklärt, warum große KI-Entwickler schnell massive Rechenzentren bauen. Während gpt-oss-120b für die meisten Heim-Setups weitgehend unerreichbar bleibt, ist gpt-oss-20b überraschend zugänglich.

Um gpt-oss-20b auszuführen, benötigt ein Computer entweder eine Grafikkarte (GPU) mit mindestens 16 GB dediziertem Videospeicher (VRAM) oder mindestens 24 GB Systemspeicher, wobei sichergestellt sein muss, dass mindestens 8 GB für das Betriebssystem und andere Anwendungen verfügbar bleiben. Die Leistung hängt entscheidend von der Speicherbandbreite ab. Eine Grafikkarte mit GDDR7- oder GDDR6X-Speicher, die Daten mit über 1000 GB/s übertragen kann, wird eine typische Laptop- oder Desktop-DDR4- oder DDR5-Speicherleistung, die im Bereich von 20 bis 100 GB/s liegt, deutlich übertreffen.

Für die lokale Bereitstellung erweist sich Ollama als ein Schlüsselwerkzeug. Diese kostenlose Client-Anwendung optimiert den Prozess des Herunterladens und Ausführens dieser LLMs unter Windows, Linux und macOS. Benutzer können zunächst Ollama für ihr jeweiliges Betriebssystem herunterladen und installieren. Nach dem Start wählt die Anwendung typischerweise gpt-oss:20b als Standard. Das Initiieren einer Aufforderung, wie „Schreiben Sie einen Brief“, löst einen erheblichen Download der Modelldaten aus – je nach Plattform etwa 12,4 GB bis 13 GB – ein Prozess, der eine beträchtliche Zeit in Anspruch nehmen kann. Nach Abschluss des Downloads können Benutzer über die intuitive grafische Oberfläche von Ollama mit gpt-oss-20b interagieren.

Für diejenigen, die einen technisch versierteren Ansatz bevorzugen oder Leistungsinformationen suchen, unterstützt Ollama auch den Betrieb über die Kommandozeilenschnittstelle (CLI). Das Ausführen von Ollama über das Terminal ermöglicht es Benutzern, einen „Verbose-Modus“ zu aktivieren, der detaillierte Statistiken liefert, einschließlich der Zeit, die zum Abschluss einer Abfrage benötigt wird. Diese Option ist auf allen unterstützten Betriebssystemen verfügbar und bietet eine größere Kontrolle und Diagnoseinformationen.

Um die lokale Leistung von gpt-oss-20b zu bewerten, wurden Tests auf drei verschiedenen Hardwarekonfigurationen mit zwei Prompts durchgeführt: einer Anfrage nach einem 600-Wörter-Fanbrief an Taylor Swift und einer einfacheren Abfrage nach dem ersten US-Präsidenten. Die Testgeräte umfassten einen Lenovo ThinkPad X1 Carbon Laptop (Core Ultra 7-165U CPU, 64 GB LPDDR5x-6400 RAM), ein Apple MacBook Pro (M1 Max CPU, 32 GB LPDDR5x-6400 RAM) und einen selbstgebauten PC mit einer diskreten Nvidia RTX 6000 Ada GPU (AMD Ryzen 9 5900X CPU, 128 GB DDR4-3200 RAM).

Der Lenovo ThinkPad X1 Carbon zeigte eine bemerkenswert langsame Leistung. Der Fanbrief dauerte 10 Minuten und 13 Sekunden, während die einfache Präsidentenabfrage 51 Sekunden benötigte. Diese Trägheit wurde größtenteils der Unfähigkeit von Ollama zugeschrieben, die integrierte Grafik oder die neuronale Verarbeitungseinheit (NPU) des Laptops zu nutzen, wodurch die Verarbeitung auf die weniger effiziente CPU verlagert wurde. Während dieser „Denkphase“ verbringt das Modell typischerweise ein bis zwei Minuten mit der Verarbeitung, bevor es eine Ausgabe generiert. Im Gegensatz dazu übertraf das Apple MacBook Pro, obwohl es eine ähnliche Speichergeschwindigkeit wie das ThinkPad aufwies, dieses deutlich und erledigte den Fanbrief in nur 26 Sekunden und beantwortete die Präsidentenfrage in nur drei Sekunden. Wenig überraschend lieferte der Desktop-PC, angetrieben von der High-End-Nvidia RTX 6000 Ada GPU, den Fanbrief in schnellen sechs Sekunden und die Antwort auf die Präsidentenabfrage in weniger als einer halben Sekunde.

Diese Ergebnisse unterstreichen, dass die lokale Leistung von gpt-oss-20b stark von der Hardware abhängt. Systeme, die mit leistungsstarken dedizierten GPUs oder modernen Apple Silicon Prozessoren ausgestattet sind, können eine robuste Leistung erwarten. Benutzer von Intel- oder AMD-basierten Laptops, die sich auf integrierte Grafiken verlassen, die Ollama nicht vollständig unterstützt, können jedoch erhebliche Verzögerungen erfahren, was möglicherweise eine Pause während der Verarbeitung ihrer Abfragen erforderlich macht. Für diejenigen, die solche Leistungsengpässe erleben, könnten alternative Anwendungen wie LM Studio, die ebenfalls die lokale LLM-Ausführung erleichtern, eine optimiertere Erfahrung bieten.