Liquid AI desvela LFM2-VL: IA ultrarrápida y eficiente para visión-lenguaje en tu dispositivo

Liquid AI ha desvelado LFM2-VL, una nueva familia de modelos fundacionales de visión-lenguaje diseñados para un despliegue eficiente en un amplio espectro de hardware, desde smartphones y laptops hasta wearables y sistemas embebidos. Estos modelos prometen ofrecer un rendimiento de baja latencia y una precisión robusta, brindando una flexibilidad significativa para aplicaciones del mundo real.

Basándose en la arquitectura LFM2 ya establecida de la compañía, LFM2-VL extiende sus capacidades al procesamiento multimodal, integrando sin problemas entradas de texto e imagen en diversas resoluciones. Liquid AI afirma que estos nuevos modelos pueden alcanzar hasta el doble de velocidad de inferencia GPU que modelos de visión-lenguaje comparables, todo ello manteniendo un rendimiento competitivo en los benchmarks estándar. Ramin Hasani, cofundador y CEO de Liquid AI, subrayó la filosofía central de la compañía en un anuncio, afirmando: “La eficiencia es nuestro producto”. Destacó el lanzamiento de dos variantes de peso abierto, de 440 millones y 1.600 millones de parámetros, señalando su velocidad GPU mejorada, procesamiento nativo de imágenes de 512x512 y parcheo inteligente para imágenes más grandes.

El lanzamiento de LFM2-VL comprende dos tamaños de modelo distintos, adaptados a diferentes necesidades operativas. El LFM2-VL-450M es un modelo altamente eficiente, con menos de quinientos millones de parámetros, diseñado específicamente para entornos con severas restricciones de recursos. Complementando esto, se encuentra el LFM2-VL-1.6B, un modelo más capaz que sigue siendo lo suficientemente ligero para su despliegue en sistemas de una sola GPU y directamente en dispositivos. Ambas variantes están diseñadas para procesar imágenes en sus resoluciones nativas de hasta 512x512 píxeles, evitando así la distorsión o el escalado innecesario. Para imágenes más grandes, el sistema emplea una técnica de parcheo no superpuesto, aumentando estas secciones con una miniatura para el contexto global, lo que permite al modelo discernir tanto los detalles finos como la escena más amplia.

Liquid AI fue fundada por antiguos investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT con un ambicioso objetivo: desarrollar arquitecturas de IA que trasciendan las limitaciones del ampliamente utilizado modelo transformador. Su innovación insignia, los Liquid Foundation Models (LFMs), se basan en principios derivados de sistemas dinámicos, procesamiento de señales y álgebra lineal numérica. Este enfoque fundamental produce modelos de IA de propósito general, expertos en manejar diversos tipos de datos, incluyendo texto, video, audio, series temporales y otra información secuencial. A diferencia de las arquitecturas convencionales, la metodología de Liquid busca lograr un rendimiento comparable o superior con sustancialmente menos recursos computacionales, permitiendo la adaptabilidad en tiempo real durante la inferencia mientras minimiza las demandas de memoria. Esto hace que los LFM sean adecuados tanto para extensas aplicaciones empresariales como para despliegues de borde con recursos limitados.

Para solidificar aún más su estrategia de plataforma, Liquid AI introdujo la Liquid Edge AI Platform (LEAP) en julio de 2025. LEAP es un Kit de Desarrollo de Software (SDK) multiplataforma diseñado para simplificar el proceso para que los desarrolladores ejecuten pequeños modelos de lenguaje directamente en dispositivos móviles y embebidos. Ofrece soporte independiente del sistema operativo para iOS y Android, integrándose sin problemas con los modelos propietarios de Liquid, así como con otros pequeños modelos de lenguaje (SLM) de código abierto. La plataforma incluye una biblioteca integrada con modelos tan compactos como 300MB, lo suficientemente pequeños para smartphones modernos con RAM mínima. Su aplicación complementaria, Apollo, permite a los desarrolladores probar modelos completamente fuera de línea, alineándose con el énfasis de Liquid AI en la IA de baja latencia que preserva la privacidad. Juntos, LEAP y Apollo subrayan el compromiso de la compañía con la descentralización de la ejecución de la IA, reduciendo la dependencia de la infraestructura en la nube y permitiendo a los desarrolladores crear modelos optimizados y específicos para tareas en escenarios del mundo real.

El diseño técnico de LFM2-VL incorpora una arquitectura modular, combinando un backbone de modelo de lenguaje con un codificador de visión SigLIP2 NaFlex y un proyector multimodal. El proyector en sí cuenta con un conector MLP de dos capas con “pixel unshuffle”, un mecanismo eficiente que reduce el número de tokens de imagen y mejora el rendimiento del procesamiento. Los usuarios tienen la flexibilidad de ajustar parámetros, como el número máximo de tokens de imagen o parches, lo que les permite ajustar el equilibrio entre velocidad y calidad según sus necesidades de despliegue específicas. El proceso de entrenamiento de estos modelos implicó aproximadamente 100 mil millones de tokens multimodales, obtenidos de una combinación de conjuntos de datos abiertos y datos sintéticos internos.

En términos de rendimiento, los modelos LFM2-VL demuestran resultados de referencia competitivos en un espectro de evaluaciones de visión-lenguaje. El modelo LFM2-VL-1.6B, por ejemplo, logró puntuaciones sólidas en RealWorldQA (65.23), InfoVQA (58.68) y OCRBench (742), mientras mantenía un rendimiento sólido en tareas de razonamiento multimodal más amplias. Durante las pruebas de inferencia, LFM2-VL registró los tiempos de procesamiento GPU más rápidos de su clase cuando se sometió a una carga de trabajo estándar que involucraba una imagen de 1024x1024 y un breve aviso de texto.

Los modelos LFM2-VL ya están disponibles públicamente en Hugging Face, acompañados de código de ajuste fino de ejemplo accesible a través de Colab. Son totalmente compatibles con Hugging Face transformers y TRL. Estos modelos se lanzan bajo una “licencia LFM1.0” personalizada, que Liquid AI describe como basada en los principios de Apache 2.0, aunque el texto completo de la licencia aún no se ha publicado. La compañía ha indicado que el uso comercial estará permitido bajo condiciones específicas, con términos diferentes para empresas con ingresos anuales superiores e inferiores a 10 millones de dólares. Con LFM2-VL, Liquid AI aspira a democratizar el acceso a la IA multimodal de alto rendimiento, haciéndola viable para despliegues en dispositivos y con recursos limitados sin comprometer la capacidad.

Liquid AI desvela LFM2-VL: IA ultrarrápida y eficiente para visión-lenguaje en tu dispositivo

Artículos Relacionados

Qwen-Image-Edit de Alibaba: Un Hito en la Edición de Imágenes con IA de Código Abierto

Claude y Hugging Face: Generación de Imágenes IA sin Esfuerzo con Nuevos Modelos

Google Presenta Gemma 3 270M: IA Diminuta para Rendimiento en Dispositivos