阿里巴巴Ovis 2.5:开源多模态大模型突破
阿里巴巴AIDC-AI团队发布了其最新的大型多模态语言模型(MLLM)Ovis 2.5,在开源人工智能社区引起了巨大反响。Ovis 2.5提供90亿和20亿参数版本,引入了关键技术进步,重新定义了多模态大语言模型的性能和效率基准,尤其是在处理高细节视觉信息和长期困扰该领域的复杂推理任务方面。
Ovis 2.5创新的基石在于其原生分辨率视觉转换器(NaViT)。这使得模型能够以图像原始、可变的分辨率进行处理,与以往依赖平铺或强制调整大小的方法截然不同。这些旧方法经常导致关键全局上下文和复杂细节的丢失。通过保留复杂图表和自然图像的完整性,NaViT使Ovis 2.5在视觉密集型任务中表现出色,从解释科学图表到分析复杂的图表和表格。
除了增强的视觉感知能力,Ovis 2.5通过复杂的训练课程解决了推理的复杂性。这超越了标准的思维链监督,通过引入旨在自我纠正和反思的“思考风格”样本。这种方法的最终成果是在推理时提供可选的“思考模式”。虽然启用此模式可能会牺牲一些响应速度,但它显著提高了逐步准确性,并允许更深入的模型内省,这对于需要深刻多模态分析的任务(如科学问答或复杂的数学问题解决)尤其有利。
Ovis 2.5的能力体现在其令人印象深刻的基准测试结果中。较大的Ovis 2.5-9B模型在OpenCompass多模态排行榜上取得了78.3的平均分,使其成为所有400亿参数以下开源多模态大语言模型中的佼佼者。其更紧凑的同胞Ovis 2.5-2B也为轻量级模型树立了新标准,得分73.9,使其成为设备端或资源受限应用的理想选择。这两个模型在专业领域都表现出卓越的性能,在STEM推理(在MathVista、MMMU和WeMath等数据集上得到验证)、光学字符识别(OCR)和图表分析(如OCRBench v2和ChartQA Pro所示)、视觉定位(RefCOCO、RefCOCOg)以及全面的视频和多图像理解(BLINK、VideoMME)等领域超越了开源竞争对手。AI开发者之间的在线讨论特别赞扬了OCR和文档处理方面的进步,强调了模型从杂乱图像中提取文本、理解复杂表单以及灵活处理各种视觉查询的能力得到了提升。
效率是Ovis 2.5的另一个标志。这些模型通过多模态数据打包和高级混合并行等技术优化了端到端训练,使整体吞吐量提高了三倍甚至四倍。此外,轻量级的20亿参数版本体现了“小模型,大性能”的理念,将高质量的多模态理解扩展到移动硬件和边缘设备,从而使先进的人工智能能力得以普及。
阿里巴巴的Ovis 2.5模型代表了开源多模态人工智能的重大进步。通过整合原生分辨率视觉转换器和用于深度推理的创新“思考模式”,Ovis 2.5不仅在关键基准测试中取得了最先进的成果,而且缩小了与专有AI解决方案的性能差距。它对效率和可访问性的关注确保了先进的多模态理解对于尖端研究人员和实际资源受限的应用都触手可及。