Gemma 3 270M de Google : Le mini LLM pour l'IA embarquée
Google a dévoilé une nouvelle addition significative à sa famille de grands modèles linguistiques (LLM) « ouverts » : Gemma 3 270M. Ce modèle de taille réduite, pesant seulement 270 millions de paramètres et nécessitant environ 550 Mo de mémoire, est conçu pour révolutionner le déploiement sur appareil et accélérer l’itération des modèles. Sa sortie s’accompagne des mises en garde habituelles de l’industrie concernant les hallucinations potentielles, les sorties incohérentes et la question toujours présente des implications en matière de droits d’auteur découlant de ses données d’entraînement.
La famille Gemma originale, lancée en février 2024, proposait deux versions principales : un modèle de deux milliards de paramètres optimisé pour une exécution directe sur l’unité centrale de traitement (CPU) d’un ordinateur, et une variante plus puissante de sept milliards de paramètres destinée aux systèmes équipés d’unités de traitement graphique (GPU) ou d’unités de traitement tensoriel (TPU) de Google. Bien que Google positionne les modèles Gemma comme « ouverts » par contraste avec sa série propriétaire Gemini, il est important de noter que, comme la plupart des modèles « ouverts » des concurrents, ils n’incluent pas le code source sous-jacent ni les données d’entraînement brutes. Au lieu de cela, les utilisateurs reçoivent des modèles pré-entraînés et leurs poids associés, une caractéristique qui est vraie pour cette dernière entrée dans ce que Google appelle le « Gemmaverse ».
Le nouveau modèle Gemma 3 270M, plus petit, est spécifiquement optimisé pour une utilisation sur appareil, capable de fonctionner efficacement avec un minimum de RAM. Google suggère qu’il est idéal pour les tâches « à volume élevé et bien définies » ou les scénarios où « chaque milliseconde et micro-centime comptent ». Sa conception met l’accent sur le développement rapide, découlant de la vitesse à laquelle il peut être affiné, un processus qui personnalise un modèle pré-entraîné pour des applications spécifiques. Cette capacité, suggère Google, peut conduire à la création sans effort d’« une flotte de modèles de tâches spécialisés ».
Les benchmarks internes, bien que non vérifiés, indiquent que Gemma 3 270M surpasse des modèles de taille similaire tels que SmollLM2-360M-Instruct et Qwen 2.5 0.5B Instruct sur le benchmark de suivi d’instructions IFEval. Comme on pouvait s’y attendre, il offre des performances nettement inférieures à celles du Gemma 3 1B, quatre fois plus grand, obtenant un score de 51,2 contre 80,2 pour ce dernier. Google tient à souligner que le modèle 270M n’est pas conçu pour des performances brutes. Au lieu de cela, son principal argument de vente est l’efficacité énergétique. Lorsqu’il est quantifié à la précision INT4, un processus qui réduit la précision des données numériques du modèle pour économiser de la mémoire et améliorer la vitesse, avec des points de contrôle de formation conscients de la quantification (QAT) pré-fournis garantissant un impact minimal sur les performances par rapport à INT8, les tests internes de Google sur un smartphone Pixel 9 Pro ont montré une décharge de batterie de seulement 0,75 point de pourcentage pour 25 conversations de longueur non spécifiée.
L’aspect le plus surprenant de ce modèle miniature est peut-être son ensemble de données d’entraînement. Malgré son petit nombre de paramètres, le modèle de 270 millions de paramètres a été entraîné sur six mille milliards de tokens, des morceaux de texte et de données utilisés pour enseigner l’IA. C’est trois fois les données utilisées pour la version à 1 milliard de paramètres et une fois et demie celles du modèle à 4 milliards de paramètres. Seuls les plus grands modèles de Google, de 12 milliards et 27 milliards de paramètres, le surpassent, entraînés sur 12 mille milliards et 14 mille milliards de tokens respectivement. Comme tous les autres modèles Gemma 3, l’ensemble de données a une « date de coupure de connaissances » d’août 2024, ce qui signifie que toute information plus récente devrait être incorporée lors du réglage fin ou par incitation directe.
Le nouveau modèle compact, comme ses prédécesseurs Gemma plus grands, est disponible gratuitement. Cependant, son utilisation est soumise à un ensemble de restrictions décrites dans la politique d’utilisation interdite de Google. La violation de ces termes donne à Google le droit de restreindre à distance ou autrement l’accès à tout service Gemma qu’il estime raisonnablement être en violation. Ces restrictions incluent l’interdiction de générer du contenu qui enfreint les droits de propriété intellectuelle, de s’engager dans des activités dangereuses, illégales ou malveillantes, de pratiquer la médecine ou la comptabilité sans licence, ou de générer du spam. Plus controversé, la politique interdit également les « tentatives de contourner ou de déjouer les filtres de sécurité » et la génération de « contenu sexuellement explicite », bien que ce dernier inclue une dérogation pour le contenu créé à des fins scientifiques, éducatives, documentaires ou artistiques. Pour les développeurs désireux d’expérimenter ce dernier modèle dans le « Gemmaverse », il est facilement disponible sur des plateformes comme Hugging Face, Ollama, Kaggle, LM Studio et Docker, Google fournissant également un guide complet pour affiner le modèle pour des applications spécifiques.