Cohere推出Command A Vision:多模态视觉AI新纪元

Decoder

Cohere推出了Command A Vision,这是一款旨在处理包括图像、图表和PDF文档在内的各种视觉数据的新模型。这一进展标志着Cohere在处理AI应用中多样化数据格式能力方面的扩展。

该公司表示,Command A Vision在标准视觉基准测试中超越了GPT-4.1、Llama 4 Maverick、Pixtral Large和Mistral Medium 3等多个领先模型,这表明其在竞争激烈的AI领域中拥有强大的性能优势。

该模型的一个关键特性是其先进的光学字符识别(OCR)能力,它不仅能识别文本,还能理解发票和表格等文档的结构布局。这使得它能够准确提取数据并以结构化JSON格式呈现,从而简化了企业的文档处理流程。

除了文档处理,Command A Vision还能够分析真实世界的图像。据Cohere称,例如,它可以在工业环境中识别潜在的危险或关键要素,展示其在安全和运营效率方面的实用性。

Command A Vision目前可通过Cohere平台访问。此外,该模型还在Hugging Face上提供,用于研究目的,以促进更广泛的探索和开发。对于本地部署,它可以使用两块A100 GPU或一块H100 GPU高效运行,并利用4位量化技术优化性能,使其适用于各种操作环境。