Cohere lance Command A Vision : L'IA visuelle polyvalente

Decoder

Cohere a introduit Command A Vision, un nouveau modèle conçu pour traiter une large gamme de données visuelles, y compris des images, des diagrammes et des documents PDF. Ce développement marque une expansion des capacités de Cohere dans la gestion de divers formats de données pour les applications d’IA.

La société déclare que Command A Vision surpasse plusieurs modèles de pointe, tels que GPT-4.1, Llama 4 Maverick, Pixtral Large et Mistral Medium 3, sur les benchmarks de vision standard, indiquant une forte revendication de performance dans le paysage concurrentiel de l’IA.

Une caractéristique clé du modèle est sa capacité avancée de reconnaissance optique de caractères (OCR), qui non seulement reconnaît le texte, mais comprend également la mise en page structurelle de documents comme les factures et les formulaires. Cela lui permet d’extraire précisément les données et de les présenter dans un format JSON structuré, rationalisant le traitement des documents pour les entreprises.

Au-delà du traitement de documents, Command A Vision est également capable d’analyser des images du monde réel. Par exemple, il peut identifier des dangers potentiels ou des éléments critiques dans des environnements industriels, selon Cohere, démontrant son utilité en matière de sécurité et d’efficacité opérationnelle.

Command A Vision est actuellement accessible via la plateforme Cohere. De plus, le modèle est disponible sur Hugging Face à des fins de recherche, favorisant une exploration et un développement plus larges. Pour un déploiement local, il peut fonctionner efficacement en utilisant deux GPU A100 ou une seule GPU H100, en tirant parti de la quantification 4 bits pour des performances optimisées, le rendant adaptable à divers environnements opérationnels.