SoundHound AI lance Vision AI : Fusion voix & visuel pour les entreprises

Techpark

SoundHound AI, Inc., un acteur de premier plan dans l’IA vocale et l’intelligence conversationnelle, a récemment dévoilé Vision AI, un moteur avancé de compréhension visuelle intégré de manière transparente à sa plateforme vocale établie. Cette innovation vise à combler le fossé entre le monde visuel et l’intelligence conversationnelle, permettant des interactions d’IA plus intuitives et réactives dans divers environnements commerciaux.

Inspirée par la manière complexe dont le cerveau humain traite simultanément le langage parlé et les signaux visuels, Vision AI unifie les capacités vocales et visuelles en un système intelligent unique. Cela permet à la technologie non seulement d’interpréter les commandes vocales, mais aussi de «voir» et de comprendre l’environnement avec une clarté remarquable. L’objectif principal est de permettre aux entreprises d’offrir des interactions qui semblent plus naturelles et empathiques, en reconnaissant le contexte, que ce soit dans un véhicule, à un service au volant, sur un sol de vente au détail ou dans des opérations industrielles complexes.

Keyvan Mohajer, PDG de SoundHound AI, a souligné la vision de l’entreprise, déclarant : « Chez SoundHound, nous pensons que l’avenir de l’IA n’est pas seulement multimodal – il est profondément intégré, réactif et conçu pour un impact réel. » Il a ajouté que Vision AI étend le leadership de SoundHound en matière d’IA vocale et conversationnelle, prête à redéfinir la façon dont les humains interagissent avec les produits et services.

Techniquement, Vision AI fonctionne en combinant la perception visuelle activée par caméra avec la plateforme Polaris existante de SoundHound, qui englobe la reconnaissance automatique de la parole (ASR), la compréhension du langage naturel (NLU), l’orchestration d’agents et les technologies de synthèse vocale. En fusionnant l’audio en direct et la compréhension du langage avec des informations visuelles en temps réel, le système débloque une gamme d’applications d’entreprise pratiques. Celles-ci incluent le dépannage d’équipements mains libres dans des environnements industriels, l’intelligence d’inventaire alimentée par l’IA pour les détaillants, des agents de découverte intuitifs dans les systèmes d’infodivertissement automobile et des expériences personnalisées aux fenêtres de service au volant.

Pranav Singh, vice-président de l’ingénierie chez SoundHound AI, a souligné la synergie de ces composants : « Avec Vision AI, nous fusionnons la reconnaissance visuelle et l’intelligence conversationnelle en un flux unique et synchronisé. Chaque image, chaque énoncé, chaque intention est interprétée au sein du même écosystème – garantissant des expériences utilisateur plus rapides et plus naturelles qui s’adaptent à diverses surfaces, des kiosques aux appareils intégrés. » Cette approche complète offre une IA capable de véritablement « voir ce que vous voyez, entendre ce que vous dites et répondre instantanément. »

L’introduction de Vision AI promet des avantages significatifs pour les partenaires de SoundHound. Elle facilite des interactions utilisateur plus rapides et plus fluides, rationalise les opérations en minimisant le besoin de saisies manuelles telles que la frappe ou la numérisation, et prend en charge les déploiements évolutifs dans divers environnements, y compris les appareils mobiles, les systèmes automobiles, les kiosques et le matériel embarqué. De plus, elle permet le déploiement d’agents intelligents capables de fonctionner efficacement dans des contextes visuels du monde réel.

Entièrement intégrée à la pile d’IA conversationnelle de bout en bout propriétaire de SoundHound, Vision AI offre une compréhension visuelle personnalisable adaptée à des domaines spécifiques, bénéficie de boucles d’apprentissage continues et offre une grande flexibilité de déploiement. Dans un développement connexe, SoundHound AI a également récemment déployé Amelia 7.1, une mise à jour de sa plateforme d’IA agéntique qui apporte des améliorations notables en termes de vitesse, de réactivité conversationnelle, de précision de l’agent IA grâce à une correspondance des connaissances améliorée, et une plus grande transparence avec des journaux de données d’agent complets. Ces avancées soulignent l’engagement continu de SoundHound à repousser les limites des solutions d’IA pratiques.