Liquid AI 推出 LFM2-VL:智能设备端的极速视觉语言AI新纪元

Venturebeat

Liquid AI 正式发布了 LFM2-VL,这是一系列新型视觉语言基础模型,旨在实现跨各种硬件的高效部署,包括智能手机、笔记本电脑、可穿戴设备和嵌入式系统。这些模型有望提供低延迟性能和强大的准确性,为实际应用带来显著的灵活性。

LFM2-VL 建立在公司既有的 LFM2 架构之上,将其能力扩展到多模态处理领域,能够无缝集成不同分辨率的文本和图像输入。Liquid AI 宣称,这些新模型在保持标准基准测试中竞争性能的同时,可实现比同类视觉语言模型快两倍的 GPU 推理速度。Liquid AI 联合创始人兼首席执行官 Ramin Hasani 在发布会上强调了公司的核心理念:“效率是我们的产品。”他特别提到了两个开放权重版本(4.4亿和16亿参数)的发布,并指出它们提升了 GPU 速度,支持原生 512x512 图像处理,并针对更大图像采用了智能分块技术。

LFM2-VL 版本包含两种不同大小的模型,以满足不同的操作需求。LFM2-VL-450M 是一款高效模型,参数少于5亿,专为资源严重受限的环境设计。作为补充,LFM2-VL-1.6B 是一款功能更强的模型,同时保持足够的轻量级,可在单 GPU 系统和设备上直接部署。这两个版本都经过精心设计,能够处理高达 512x512 像素的原生分辨率图像,从而避免失真或不必要的上采样。对于更大的图像,系统采用非重叠分块技术,并通过缩略图增强这些分块以提供全局上下文,使模型能够同时识别细节和整体场景。

Liquid AI 由麻省理工学院计算机科学与人工智能实验室(CSAIL)的前研究人员创立,其雄心勃勃的目标是开发超越广泛使用的 Transformer 模型局限性的 AI 架构。他们的旗舰创新——Liquid 基础模型(LFMs),植根于动力系统、信号处理和数值线性代数原理。这种基础方法产生了通用 AI 模型,擅长处理各种数据类型,包括文本、视频、音频、时间序列和其他序列信息。与传统架构不同,Liquid 的方法旨在以显著更少的计算资源实现同等或更优的性能,从而在推理过程中实现实时适应性,同时最大限度地减少内存需求。这使得 LFMs 非常适合大型企业应用和资源受限的边缘部署。

为进一步巩固其平台战略,Liquid AI 于2025年7月推出了 Liquid Edge AI Platform (LEAP)。LEAP 是一款跨平台软件开发工具包(SDK),旨在简化开发人员在移动和嵌入式设备上直接运行小型语言模型的过程。它为 iOS 和 Android 提供与操作系统无关的支持,可与 Liquid 专有模型以及其他开源小型语言模型(SLM)无缝集成。该平台内置了一个库,其中包含小至 300MB 的模型,足以在内存极小的现代智能手机上运行。其配套应用程序 Apollo 使开发人员能够完全离线测试模型,这与 Liquid AI 强调保护隐私、低延迟 AI 的理念相符。LEAP 和 Apollo 共同凸显了公司致力于去中心化 AI 执行、减少对云基础设施的依赖,并使开发人员能够为实际场景打造优化、特定任务模型。

LFM2-VL 的技术设计采用了模块化架构,结合了语言模型骨干、SigLIP2 NaFlex 视觉编码器和多模态投影器。投影器本身具有一个两层 MLP 连接器,带有像素解混(pixel unshuffle)功能,这是一种高效机制,可减少图像 token 数量并提高处理吞吐量。用户可以灵活调整参数,例如最大图像 token 或分块数量,从而根据其特定的部署需求微调速度和质量之间的平衡。这些模型的训练过程涉及大约 1000 亿个多模态 token,来源于开放数据集和内部合成数据的组合。

在性能方面,LFM2-VL 模型在各种视觉语言评估中展现出具有竞争力的基准测试结果。例如,LFM2-VL-1.6B 模型在 RealWorldQA (65.23)、InfoVQA (58.68) 和 OCRBench (742) 中取得了高分,同时在更广泛的多模态推理任务中保持了稳健的性能。在推理测试中,当处理包含 1024x1024 图像和简短文本提示的标准工作负载时,LFM2-VL 记录了同类产品中最快的 GPU 处理时间。

LFM2-VL 模型现已在 Hugging Face 公开可用,并附带可通过 Colab 访问的示例微调代码。它们完全兼容 Hugging Face transformers 和 TRL。这些模型根据定制的“LFM1.0 许可证”发布,Liquid AI 称该许可证基于 Apache 2.0 原则,但完整的许可证文本尚未发布。该公司表示,在特定条件下允许商业使用,对于年收入超过和低于 1000 万美元的企业有不同的条款。通过 LFM2-VL,Liquid AI 旨在普及高性能多模态 AI 的访问,使其在设备端和资源受限的部署中可行,同时不牺牲能力。