Liquid AI stellt LFM2-VL vor: Schnelle, effiziente KI für Geräte-Vision-Sprache

Liquid AI hat LFM2-VL vorgestellt, eine neue Familie von Vision-Sprach-Grundlagenmodellen, die für den effizienten Einsatz auf einer breiten Palette von Hardware entwickelt wurden, von Smartphones und Laptops bis hin zu Wearables und eingebetteten Systemen. Diese Modelle versprechen eine geringe Latenz und robuste Genauigkeit und bieten erhebliche Flexibilität für reale Anwendungen.

Basierend auf der etablierten LFM2-Architektur des Unternehmens erweitert LFM2-VL deren Fähigkeiten auf die multimodale Verarbeitung und integriert nahtlos Text- und Bildeingaben in verschiedenen Auflösungen. Liquid AI behauptet, dass diese neuen Modelle die doppelte GPU-Inferenzgeschwindigkeit vergleichbarer Vision-Sprachmodelle erreichen können, während sie gleichzeitig eine wettbewerbsfähige Leistung bei Standard-Benchmarks aufrechterhalten. Ramin Hasani, Mitbegründer und CEO von Liquid AI, unterstrich in einer Ankündigung die Kernphilosophie des Unternehmens: “Effizienz ist unser Produkt.” Er hob die Veröffentlichung von zwei Open-Weight-Varianten mit 440 Millionen und 1,6 Milliarden Parametern hervor und wies auf deren verbesserte GPU-Geschwindigkeit, native 512x512-Bildverarbeitung und intelligentes Patching für größere Bilder hin.

Die LFM2-VL-Veröffentlichung umfasst zwei verschiedene Modellgrößen, die auf unterschiedliche Betriebsanforderungen zugeschnitten sind. Das LFM2-VL-450M ist ein hoch effizientes Modell mit weniger als einer halben Milliarde Parametern, das speziell für Umgebungen mit starken Ressourcenbeschränkungen entwickelt wurde. Ergänzt wird dies durch das LFM2-VL-1.6B, ein leistungsfähigeres Modell, das für den Einsatz auf Einzel-GPU-Systemen und direkt auf Geräten ausreichend leichtgewichtig bleibt. Beide Varianten sind so konzipiert, dass sie Bilder mit ihren nativen Auflösungen von bis zu 512x512 Pixeln verarbeiten, wodurch Verzerrungen oder unnötiges Hochskalieren vermieden werden. Für größere Bilder verwendet das System eine Technik des nicht überlappenden Patchings, bei der diese Abschnitte mit einem Thumbnail für den globalen Kontext ergänzt werden, was es dem Modell ermöglicht, sowohl feine Details als auch die breitere Szene zu erkennen.

Liquid AI wurde von ehemaligen Forschern des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) mit dem ehrgeizigen Ziel gegründet, KI-Architekturen zu entwickeln, die die Grenzen des weit verbreiteten Transformator-Modells überwinden. Ihre Flaggschiff-Innovation, die Liquid Foundation Models (LFMs), basiert auf Prinzipien aus dynamischen Systemen, Signalverarbeitung und numerischer linearer Algebra. Dieser grundlegende Ansatz führt zu universellen KI-Modellen, die in der Lage sind, verschiedene Datentypen zu verarbeiten, darunter Text, Video, Audio, Zeitreihen und andere sequentielle Informationen. Im Gegensatz zu konventionellen Architekturen zielt Liquids Methodik darauf ab, eine vergleichbare oder überlegene Leistung mit wesentlich weniger Rechenressourcen zu erzielen, was eine Echtzeit-Anpassungsfähigkeit während der Inferenz ermöglicht und gleichzeitig den Speicherbedarf minimiert. Dies macht LFMs sowohl für umfangreiche Unternehmensanwendungen als auch für ressourcenbeschränkte Edge-Deployments gut geeignet.

Um seine Plattformstrategie weiter zu festigen, führte Liquid AI im Juli 2025 die Liquid Edge AI Platform (LEAP) ein. LEAP ist ein plattformübergreifendes Software Development Kit (SDK), das den Prozess für Entwickler vereinfachen soll, kleine Sprachmodelle direkt auf mobilen und eingebetteten Geräten auszuführen. Es bietet betriebssystemunabhängige Unterstützung für iOS und Android und lässt sich nahtlos in die proprietären Modelle von Liquid sowie andere Open-Source-Small Language Models (SLMs) integrieren. Die Plattform enthält eine integrierte Bibliothek mit Modellen, die so kompakt wie 300 MB sind, klein genug für moderne Smartphones mit minimalem RAM. Die zugehörige Anwendung Apollo ermöglicht es Entwicklern, Modelle vollständig offline zu testen, was mit Liquid AIs Betonung von datenschutzfreundlicher, latenzarmer KI übereinstimmt. Zusammen unterstreichen LEAP und Apollo das Engagement des Unternehmens, die KI-Ausführung zu dezentralisieren, die Abhängigkeit von Cloud-Infrastruktur zu reduzieren und Entwicklern die Möglichkeit zu geben, optimierte, aufgabenbezogene Modelle für reale Szenarien zu erstellen.

Das technische Design von LFM2-VL integriert eine modulare Architektur, die ein Sprachmodell-Backbone mit einem SigLIP2 NaFlex Vision-Encoder und einem multimodalen Projektor kombiniert. Der Projektor selbst verfügt über einen zweischichtigen MLP-Konnektor mit Pixel-Unshuffle, einem effizienten Mechanismus, der die Anzahl der Bild-Tokens reduziert und den Verarbeitungsdurchsatz verbessert. Benutzer haben die Flexibilität, Parameter wie die maximale Anzahl von Bild-Tokens oder Patches anzupassen, wodurch sie das Gleichgewicht zwischen Geschwindigkeit und Qualität basierend auf ihren spezifischen Bereitstellungsanforderungen feinabstimmen können. Der Trainingsprozess für diese Modelle umfasste ungefähr 100 Milliarden multimodale Tokens, die aus einer Kombination von offenen Datensätzen und internen synthetischen Daten stammten.

In Bezug auf die Leistung zeigen die LFM2-VL-Modelle wettbewerbsfähige Benchmark-Ergebnisse über ein Spektrum von Vision-Sprach-Evaluierungen. Das LFM2-VL-1.6B-Modell erzielte beispielsweise starke Ergebnisse in RealWorldQA (65.23), InfoVQA (58.68) und OCRBench (742, während es eine solide Leistung bei breiteren multimodalen Reasoning-Aufgaben beibehielt. Bei der Inferenztestung verzeichnete LFM2-VL die schnellsten GPU-Verarbeitungszeiten in seiner Klasse, wenn es einer Standardarbeitslast mit einem 1024x1024-Bild und einer kurzen Textaufforderung unterzogen wurde.

Die LFM2-VL-Modelle sind ab sofort öffentlich auf Hugging Face verfügbar, begleitet von Beispiel-Fine-Tuning-Code, der über Colab zugänglich ist. Sie sind vollständig kompatibel mit Hugging Face Transformers und TRL. Diese Modelle werden unter einer benutzerdefinierten “LFM1.0-Lizenz” veröffentlicht, die Liquid AI als auf den Prinzipien von Apache 2.0 basierend beschreibt, obwohl der vollständige Lizenztext noch nicht veröffentlicht wurde. Das Unternehmen hat angegeben, dass die kommerzielle Nutzung unter bestimmten Bedingungen gestattet sein wird, mit unterschiedlichen Bedingungen für Unternehmen mit einem Jahresumsatz über und unter 10 Millionen US-Dollar. Mit LFM2-VL zielt Liquid AI darauf ab, den Zugang zu hochleistungsfähiger multimodaler KI zu demokratisieren und sie für On-Device- und ressourcenbeschränkte Bereitstellungen ohne Kompromisse bei der Leistungsfähigkeit praktikabel zu machen.

Liquid AI stellt LFM2-VL vor: Schnelle, effiziente KI für Geräte-Vision-Sprache

Ähnliche Artikel

Alibabas Qwen-Image-Edit: Durchbruch bei Open-Source-KI-Bildbearbeitung

Claude & Hugging Face: Mühelose KI-Bilder mit neuen Modellen

Google enthüllt Gemma 3 270M: Winzige KI für On-Device-Leistung