SoundHound AI lanza Vision AI: Voz y visión unidas para empresas

Techpark

SoundHound AI, Inc., un actor prominente en la IA de voz y la inteligencia conversacional, ha presentado recientemente Vision AI, un motor avanzado de comprensión visual perfectamente integrado con su establecida plataforma de voz. Esta innovación tiene como objetivo salvar la brecha entre el mundo visual y la inteligencia conversacional, permitiendo interacciones de IA más intuitivas y receptivas en diversos entornos empresariales.

Inspirado en la intrincada forma en que el cerebro humano procesa tanto el lenguaje hablado como las señales visuales al unísono, Vision AI unifica las capacidades de voz y visuales en un único sistema inteligente. Esto permite que la tecnología no solo interprete comandos hablados, sino que también “vea” y comprenda el entorno circundante con una claridad notable. El objetivo principal es capacitar a las empresas para que ofrezcan interacciones que se sientan más naturales y empáticas, reconociendo el contexto, ya sea dentro de un vehículo, en un autoservicio, en un piso de venta minorista o en operaciones industriales complejas.

Keyvan Mohajer, CEO de SoundHound AI, enfatizó la visión de la compañía, afirmando: “En SoundHound, creemos que el futuro de la IA no es solo multimodal, sino que está profundamente integrado, es receptivo y está construido para un impacto en el mundo real”. Añadió que Vision AI extiende el liderazgo de SoundHound en IA de voz y conversacional, lista para redefinir cómo los humanos interactúan con productos y servicios.

Técnicamente, Vision AI opera combinando la percepción visual habilitada por cámara con la plataforma Polaris existente de SoundHound, que abarca el reconocimiento automático de voz (ASR), la comprensión del lenguaje natural (NLU), la orquestación de agentes y las tecnologías de texto a voz. Al fusionar audio en vivo y comprensión del lenguaje con información visual en tiempo real, el sistema desbloquea una variedad de aplicaciones empresariales prácticas. Estas incluyen la resolución de problemas de equipos manos libres en entornos industriales, inteligencia de inventario impulsada por IA para minoristas, agentes de descubrimiento intuitivos dentro de los sistemas de infoentretenimiento de automóviles y experiencias personalizadas en las ventanillas de autoservicio.

Pranav Singh, vicepresidente de Ingeniería de SoundHound AI, destacó la sinergia de estos componentes: “Con Vision AI, estamos fusionando el reconocimiento visual y la inteligencia conversacional en un único flujo sincronizado. Cada fotograma, cada enunciado, cada intención se interpreta dentro del mismo ecosistema, lo que garantiza experiencias de usuario más rápidas y naturales que se escalan a través de superficies, desde quioscos hasta dispositivos integrados”. Este enfoque integral ofrece una IA que realmente puede “ver lo que ves, escuchar lo que dices y responder al instante”.

La introducción de Vision AI promete ventajas significativas para los socios de SoundHound. Facilita interacciones de usuario más rápidas y sin fricciones, agiliza las operaciones al minimizar la necesidad de entradas manuales como escribir o escanear, y admite despliegues escalables en diversos entornos, incluidos dispositivos móviles, sistemas automotrices, quioscos y hardware integrado. Además, permite el despliegue de agentes inteligentes que pueden operar eficazmente dentro de contextos visuales del mundo real.

Completamente integrado con la pila de IA conversacional de extremo a extremo de SoundHound, Vision AI ofrece una comprensión visual personalizable adaptada a dominios específicos, se beneficia de bucles de aprendizaje continuo y proporciona una amplia flexibilidad de implementación. En un desarrollo relacionado, SoundHound AI también lanzó recientemente Amelia 7.1, una actualización de su plataforma de IA agéntica que trae mejoras notables en velocidad, capacidad de respuesta conversacional, precisión del agente de IA a través de una coincidencia de conocimiento mejorada y mayor transparencia con registros de datos completos del agente. Estos avances subrayan el compromiso continuo de SoundHound de superar los límites de las soluciones prácticas de IA.