Cohere lanza Command A Vision: IA visual diversa y potente

Decoder

Cohere ha presentado Command A Vision, un nuevo modelo diseñado para procesar una amplia gama de datos visuales, incluyendo imágenes, diagramas y documentos PDF. Este desarrollo marca una expansión de las capacidades de Cohere en el manejo de diversos formatos de datos para aplicaciones de IA.

La compañía afirma que Command A Vision supera a varios modelos líderes, como GPT-4.1, Llama 4 Maverick, Pixtral Large y Mistral Medium 3, en los puntos de referencia de visión estándar, lo que indica una fuerte afirmación de rendimiento en el competitivo panorama de la IA.

Una característica clave del modelo es su avanzada capacidad de Reconocimiento Óptico de Caracteres (OCR), que no solo reconoce texto sino que también comprende el diseño estructural de documentos como facturas y formularios. Esto le permite extraer datos con precisión y presentarlos en un formato JSON estructurado, agilizando el procesamiento de documentos para las empresas.

Más allá del procesamiento de documentos, Command A Vision también es capaz de analizar imágenes del mundo real. Por ejemplo, puede identificar peligros potenciales o elementos críticos dentro de entornos industriales, según Cohere, lo que demuestra su utilidad en seguridad y eficiencia operativa.

Command A Vision es actualmente accesible a través de la plataforma Cohere. Además, el modelo está disponible en Hugging Face con fines de investigación, fomentando una exploración y desarrollo más amplios. Para la implementación local, puede operar eficientemente utilizando dos GPU A100 o una sola GPU H100, aprovechando la cuantificación de 4 bits para un rendimiento optimizado, lo que lo hace adaptable a diversos entornos operativos.