Exécutez le LLM gpt-oss-20b d'OpenAI en Local : Guide Pratique
OpenAI a récemment amélioré l’accessibilité de ses grands modèles de langage (LLMs) en publiant deux modèles à « poids ouverts », gpt-oss-20b
et gpt-oss-120b
, permettant aux utilisateurs de télécharger et d’exécuter ces outils d’IA avancés directement sur leurs ordinateurs personnels. Ce développement marque une étape significative vers la démocratisation de l’accès à l’IA avancée, permettant aux utilisateurs d’exploiter des modèles puissants sans dépendre d’une infrastructure cloud.
Le plus léger des deux, gpt-oss-20b
, dispose de 21 milliards de paramètres – une mesure de sa complexité et de sa taille – et nécessite environ 16 Go de mémoire libre pour fonctionner. Son grand frère, gpt-oss-120b
, est un modèle beaucoup plus exigeant avec 117 milliards de paramètres, nécessitant une imposante mémoire de 80 Go. Pour mettre cela en perspective, un modèle « de pointe » comme DeepSeek R1 possède 671 milliards de paramètres et exige environ 875 Go de mémoire, ce qui explique pourquoi les principaux développeurs d’IA construisent rapidement d’énormes centres de données. Alors que gpt-oss-120b
reste en grande partie hors de portée pour la plupart des configurations domestiques, gpt-oss-20b
est étonnamment accessible.
Pour exécuter gpt-oss-20b
, un ordinateur a besoin soit d’une unité de traitement graphique (GPU) équipée d’au moins 16 Go de mémoire vidéo dédiée (VRAM), soit d’un minimum de 24 Go de mémoire système, garantissant qu’au moins 8 Go restent disponibles pour le système d’exploitation et d’autres applications. La performance dépend crucialement de la bande passante mémoire. Une carte graphique utilisant de la mémoire GDDR7 ou GDDR6X, capable de transférer des données à plus de 1000 Go/s, surpassera significativement la mémoire DDR4 ou DDR5 d’un ordinateur portable ou de bureau typique, qui fonctionne dans la plage de 20 à 100 Go/s.
Pour le déploiement local, Ollama apparaît comme un outil clé. Cette application cliente gratuite simplifie le processus de téléchargement et d’exécution de ces LLMs sur Windows, Linux et macOS. Les utilisateurs peuvent commencer par télécharger et installer Ollama pour leurs systèmes d’exploitation respectifs. Une fois lancée, l’application se configure généralement par défaut sur gpt-oss:20b
. L’initiation d’une requête, telle que « Écrire une lettre », déclenchera un téléchargement substantiel des données du modèle – environ 12,4 Go à 13 Go selon la plateforme – un processus qui peut prendre un temps considérable. Une fois le téléchargement terminé, les utilisateurs peuvent interagir avec gpt-oss-20b
via l’interface graphique intuitive d’Ollama.
Pour ceux qui préfèrent une approche plus technique ou recherchent des informations sur les performances, Ollama prend également en charge le fonctionnement via l’interface de ligne de commande (CLI). L’exécution d’Ollama depuis le terminal permet aux utilisateurs d’activer un « mode verbeux », qui fournit des statistiques détaillées, y compris le temps nécessaire pour terminer une requête. Cette option est disponible sur tous les systèmes d’exploitation pris en charge, offrant un contrôle et des informations de diagnostic accrus.
Pour évaluer les performances locales de gpt-oss-20b
, des tests ont été menés sur trois configurations matérielles diverses en utilisant deux requêtes : une demande pour une lettre de fan de 600 mots à Taylor Swift et une requête plus simple sur le premier président des États-Unis. Les appareils de test comprenaient un ordinateur portable Lenovo ThinkPad X1 Carbon (CPU Core Ultra 7-165U, 64 Go de RAM LPDDR5x-6400), un Apple MacBook Pro (CPU M1 Max, 32 Go de RAM LPDDR5x-6400) et un PC assemblé sur mesure doté d’un GPU Nvidia RTX 6000 Ada discret (CPU AMD Ryzen 9 5900X, 128 Go de RAM DDR4-3200).
Le Lenovo ThinkPad X1 Carbon a montré des performances notablement lentes. La lettre de fan a pris 10 minutes et 13 secondes, tandis que la simple requête présidentielle a nécessité 51 secondes. Cette lenteur a été largement attribuée à l’incapacité d’Ollama à exploiter les graphiques intégrés ou l’unité de traitement neuronal (NPU) de l’ordinateur portable, forçant le traitement sur le CPU moins efficace. Pendant cette phase de « réflexion », le modèle passe généralement une ou deux minutes à traiter avant de générer une sortie. En revanche, l’Apple MacBook Pro, malgré une vitesse de mémoire similaire à celle du ThinkPad, l’a significativement surpassé, complétant la lettre de fan en seulement 26 secondes et répondant à la question présidentielle en à peine trois secondes. Sans surprise, le PC de bureau, propulsé par le GPU Nvidia RTX 6000 Ada haut de gamme, a livré la lettre de fan en six secondes rapides et la réponse à la requête présidentielle en moins d’une demi-seconde.
Ces résultats soulignent que la performance locale de gpt-oss-20b
dépend fortement du matériel. Les systèmes équipés de GPU dédiés puissants ou de processeurs Apple Silicon modernes peuvent s’attendre à des performances robustes. Cependant, les utilisateurs d’ordinateurs portables Intel ou AMD s’appuyant sur des graphiques intégrés qu’Ollama ne prend pas entièrement en charge peuvent connaître des retards considérables, nécessitant potentiellement une pause pendant le traitement de leurs requêtes. Pour ceux qui sont confrontés à de tels goulots d’étranglement de performances, des applications alternatives comme LM Studio, qui facilite également l’exécution locale des LLM, pourraient offrir une expérience plus optimisée.