Nvidia Cosmos Reason : L'IA générative pour des décisions robotiques humaines

Computerworld

Nvidia a dévoilé un modèle d’IA générative, Cosmos Reason, conçu pour doter les robots de capacités de prise de décision similaires à celles des humains en leur permettant d’analyser intuitivement leur environnement. Annoncé lundi, ce modèle de langage visuel (VLM) innovant traite les informations provenant d’entrées vidéo et graphiques, puis utilise sa compréhension pour faire des choix qui reflètent le bon sens humain.

Rev Lebaredian, vice-président d’Omniverse et des technologies de simulation chez Nvidia, a souligné que Cosmos Reason aide les robots à “penser comme les humains” et à prendre des décisions basées sur le “simple bon sens”. Ce modèle léger, ne comptant que 7 milliards de paramètres, est suffisamment polyvalent pour être intégré dans un large éventail d’appareils physiques. Ses applications s’étendent des caméras embarquées et des feux de signalisation aux instruments industriels dans les usines, signalant un avenir où, comme le prédit Lebaredian, “chaque appareil IoT intelligent capable de voir, des caméras aux feux de circulation, chaque robot domestique ou industriel, aura une capacité de raisonnement”.

Le modèle facilite le développement d’“agents d’IA vidéo” capables d’agir sur de vastes quantités de données dérivées à la fois de vidéos enregistrées et de flux en direct. Ces agents, selon Lebaredian, sont sur le point de devenir omniprésents, automatisant des fonctions critiques telles que la surveillance du trafic, l’amélioration des protocoles de sécurité et le perfectionnement des processus d’inspection vidéo dans des environnements divers, des installations industrielles aux paysages urbains entiers.

Contrairement aux modèles génératifs textuels typiques qui produisent des images, des vidéos ou du texte, Cosmos Reason est un modèle de langage visuel dédié. Bien que d’autres entreprises, y compris OpenAI, aient publié leurs propres VLM, Nvidia affirme que Cosmos Reason offre un niveau de raisonnement plus profond, en particulier lorsqu’il rencontre un large éventail de scénarios jamais vus auparavant. Le modèle peut construire une compréhension fondamentale des situations, tenir compte des interactions physiques et, par la suite, inférer des relations ou des motivations complexes entre les objets et les acteurs d’une scène. De manière cruciale, il possède également la capacité de comprendre des expériences entièrement nouvelles.

Pour illustrer son application pratique, Nvidia a fourni un exemple concret : un robot équipé de Cosmos Reason serait capable de faire les liens nécessaires pour préparer du pain grillé, comprenant que le processus nécessite du beurre, un grille-pain et une assiette pour servir l’aliment fini.

Les modèles de robots IA actuels s’appuient généralement sur deux technologies fondamentales. Le composant VLM, comme Cosmos Reason, est responsable de l’interprétation des instructions et de la formulation des plans d’action. Cela fonctionne de concert avec la technologie “vision langage action”, qui permet une exécution rapide et inculque une forme de mémoire musculaire aux robots.

Cosmos Reason a été publié en tant que modèle open-source et est maintenant disponible au téléchargement. Cependant, sa fonctionnalité est exclusivement liée à l’écosystème matériel de Nvidia. La société propose son ordinateur Jetson Thor DGX spécifiquement pour les applications robotiques et a simultanément annoncé de nouvelles GPU de qualité professionnelle. Les GPU RTX Pro 6000 sont destinées aux serveurs haut de gamme, tandis que les GPU RTX Pro 4000 et 2000, toutes construites sur l’architecture avancée Blackwell, sont conçues pour les stations de travail de bureau haut de gamme.

Cosmos Reason est un ajout stratégique à la ligne de produits Omniverse de Nvidia, qui englobe ses outils de construction de mondes et de simulation. Les produits Omniverse sont axés sur la création de représentations de jumeaux numériques précises d’objets physiques du monde réel. Les données riches générées dans ces environnements virtuels sont ensuite utilisées pour créer des ensembles de données synthétiques, qui sont essentiels pour l’entraînement de modèles de langage visuel sophistiqués comme Cosmos Reason, visant finalement à stimuler la productivité dans les usines, les entrepôts, les systèmes robotiques, les véhicules et d’autres domaines physiques.