Liquid AI dévoile LFM2-VL : L'IA rapide et efficace pour la vision-langage embarquée

Venturebeat

Liquid AI a dévoilé LFM2-VL, une nouvelle famille de modèles fondamentaux de vision-langage conçus pour un déploiement efficace sur un large éventail de matériels, des smartphones et ordinateurs portables aux appareils portables et systèmes embarqués. Ces modèles promettent d’offrir des performances à faible latence et une précision robuste, offrant une flexibilité significative pour les applications du monde réel.

S’appuyant sur l’architecture LFM2 établie de l’entreprise, LFM2-VL étend ses capacités au traitement multimodal, intégrant de manière transparente les entrées texte et image à différentes résolutions. Liquid AI affirme que ces nouveaux modèles peuvent atteindre jusqu’à deux fois la vitesse d’inférence GPU des modèles de vision-langage comparables, tout en maintenant des performances compétitives sur les benchmarks standard. Ramin Hasani, cofondateur et PDG de Liquid AI, a souligné la philosophie fondamentale de l’entreprise dans une annonce, déclarant : « L’efficacité est notre produit. » Il a mis en avant la sortie de deux variantes à poids ouverts, mesurant 440 millions et 1,6 milliard de paramètres, notant leur vitesse GPU améliorée, le traitement natif d’images 512x512 et le patch intelligent pour les images plus grandes.

La version LFM2-VL comprend deux tailles de modèle distinctes adaptées à différents besoins opérationnels. Le LFM2-VL-450M est un modèle très efficace, comportant moins d’un demi-milliard de paramètres, conçu spécifiquement pour les environnements soumis à de sévères contraintes de ressources. En complément, le LFM2-VL-1.6B est un modèle plus performant qui reste suffisamment léger pour être déployé sur des systèmes à GPU unique et directement sur les appareils. Les deux variantes sont conçues pour traiter les images à leurs résolutions natives allant jusqu’à 512x512 pixels, évitant ainsi la distorsion ou la mise à l’échelle inutile. Pour les images plus grandes, le système utilise une technique de patchs non chevauchants, augmentant ces sections avec une vignette pour un contexte global, ce qui permet au modèle de discerner à la fois les détails fins et la scène plus large.

Liquid AI a été fondée par d’anciens chercheurs du Laboratoire d’informatique et d’intelligence artificielle (CSAIL) du MIT avec un objectif ambitieux : développer des architectures d’IA qui transcendent les limitations du modèle transformeur largement utilisé. Leur innovation phare, les Liquid Foundation Models (LFM), sont enracinées dans des principes dérivés des systèmes dynamiques, du traitement du signal et de l’algèbre linéaire numérique. Cette approche fondamentale produit des modèles d’IA à usage général aptes à gérer divers types de données, y compris le texte, la vidéo, l’audio, les séries temporelles et d’autres informations séquentielles. Contrairement aux architectures conventionnelles, la méthodologie de Liquid vise à atteindre des performances comparables ou supérieures avec beaucoup moins de ressources computationnelles, permettant une adaptabilité en temps réel pendant l’inférence tout en minimisant les exigences de mémoire. Cela rend les LFM bien adaptés aux applications d’entreprise étendues et aux déploiements en périphérie (edge) à ressources limitées.

Pour consolider davantage sa stratégie de plateforme, Liquid AI a introduit la Liquid Edge AI Platform (LEAP) en juillet 2025. LEAP est un kit de développement logiciel (SDK) multiplateforme conçu pour simplifier le processus permettant aux développeurs d’exécuter de petits modèles de langage directement sur les appareils mobiles et embarqués. Il offre un support indépendant du système d’exploitation pour iOS et Android, s’intégrant de manière transparente avec les modèles propriétaires de Liquid ainsi qu’avec d’autres petits modèles de langage (SLM) open source. La plateforme comprend une bibliothèque intégrée avec des modèles aussi compacts que 300 Mo, suffisamment petits pour les smartphones modernes avec une RAM minimale. Son application compagnon, Apollo, permet aux développeurs de tester les modèles entièrement hors ligne, s’alignant sur l’accent mis par Liquid AI sur une IA respectueuse de la vie privée et à faible latence. Ensemble, LEAP et Apollo soulignent l’engagement de l’entreprise à décentraliser l’exécution de l’IA, à réduire la dépendance à l’infrastructure cloud et à permettre aux développeurs de créer des modèles optimisés et spécifiques aux tâches pour des scénarios réels.

La conception technique de LFM2-VL intègre une architecture modulaire, combinant un “backbone” de modèle linguistique avec un encodeur de vision SigLIP2 NaFlex et un projecteur multimodal. Le projecteur lui-même comporte un connecteur MLP à deux couches avec “pixel unshuffle”, un mécanisme efficace qui réduit le nombre de “tokens” d’image et améliore le débit de traitement. Les utilisateurs ont la flexibilité d’ajuster des paramètres, tels que le nombre maximal de “tokens” d’image ou de patchs, leur permettant d’affiner l’équilibre entre la vitesse et la qualité en fonction de leurs besoins de déploiement spécifiques. Le processus d’entraînement de ces modèles a impliqué environ 100 milliards de “tokens” multimodaux, provenant d’une combinaison de jeux de données ouverts et de données synthétiques internes.

En termes de performances, les modèles LFM2-VL démontrent des résultats de référence compétitifs sur un éventail d’évaluations de vision-langage. Le modèle LFM2-VL-1.6B, par exemple, a obtenu des scores solides dans RealWorldQA (65.23), InfoVQA (58.68) et OCRBench (742), tout en maintenant des performances solides dans des tâches de raisonnement multimodal plus larges. Lors des tests d’inférence, LFM2-VL a enregistré les temps de traitement GPU les plus rapides de sa catégorie lorsqu’il a été soumis à une charge de travail standard impliquant une image de 1024x1024 et une brève invite textuelle.

Les modèles LFM2-VL sont désormais publiquement disponibles sur Hugging Face, accompagnés d’un code d’affinage d’exemple accessible via Colab. Ils sont entièrement compatibles avec Hugging Face transformers et TRL. Ces modèles sont publiés sous une “licence LFM1.0” personnalisée, que Liquid AI décrit comme étant basée sur les principes d’Apache 2.0, bien que le texte complet de la licence n’ait pas encore été publié. La société a indiqué que l’utilisation commerciale sera autorisée sous des conditions spécifiques, avec des termes différents pour les entreprises dont le chiffre d’affaires annuel est supérieur ou inférieur à 10 millions de dollars. Avec LFM2-VL, Liquid AI vise à démocratiser l’accès à l’IA multimodale haute performance, la rendant viable pour les déploiements sur appareil et à ressources limitées sans compromettre les capacités.