Nvidia Cosmos Reason: IA Generativa para Decisiones Robóticas Humanas

Computerworld

Nvidia ha presentado un modelo de IA generativa, Cosmos Reason, diseñado para dotar a los robots de capacidades de toma de decisiones similares a las humanas, permitiéndoles analizar intuitivamente su entorno. Anunciado el lunes, este innovador modelo de lenguaje visual (VLM) procesa información de entradas de video y gráficos, y luego aprovecha su comprensión para tomar decisiones que reflejan el sentido común humano.

Rev Lebaredian, vicepresidente de tecnologías Omniverse y de simulación de Nvidia, enfatizó que Cosmos Reason ayuda a los robots a “pensar como lo hacen los humanos” y a tomar decisiones basadas en “solo sentido común”. Este modelo ligero, con solo 7 mil millones de parámetros, es lo suficientemente versátil para integrarse en una amplia gama de dispositivos físicos. Sus aplicaciones van desde cámaras integradas y semáforos hasta instrumentos industriales en plantas de fabricación, señalando un futuro donde, como predice Lebaredian, “Cada dispositivo IoT inteligente que pueda ver, desde cámaras hasta semáforos, cada robot doméstico o industrial, tendrá razonamiento”.

El modelo facilita el desarrollo de “agentes de IA de video” capaces de actuar sobre vastas cantidades de datos derivados tanto de video grabado como de transmisiones en vivo. Estos agentes, según Lebaredian, están a punto de volverse omnipresentes, automatizando funciones críticas como la monitorización del tráfico, mejorando los protocolos de seguridad y refinando los procesos de inspección de video en diversos entornos, desde instalaciones industriales hasta paisajes urbanos completos.

A diferencia de los modelos generativos típicos basados en texto que producen imágenes, videos o texto, Cosmos Reason es un modelo de lenguaje visual dedicado. Si bien otras compañías, incluida OpenAI, han lanzado sus propios VLM, Nvidia afirma que Cosmos Reason ofrece un nivel más profundo de razonamiento, particularmente al encontrarse con una amplia gama de escenarios nunca antes vistos. El modelo puede construir una comprensión fundamental de las situaciones, tener en cuenta las interacciones físicas y, posteriormente, inferir relaciones o motivaciones complejas entre objetos y actores dentro de una escena. Crucialmente, también posee la capacidad de comprender experiencias completamente nuevas.

Para ilustrar su aplicación práctica, Nvidia proporcionó un ejemplo cercano: un robot equipado con Cosmos Reason sería capaz de conectar los puntos necesarios para hacer tostadas, entendiendo que el proceso requiere mantequilla, una tostadora y un plato para servir la comida terminada.

Los modelos actuales de robots con IA suelen depender de dos tecnologías centrales. El componente VLM, como Cosmos Reason, es responsable de interpretar instrucciones y formular planes de acción. Esto funciona en conjunto con la tecnología de “acción de lenguaje visual”, que permite una ejecución rápida e inculca una forma de memoria muscular en los robots.

Cosmos Reason ha sido lanzado como un modelo de código abierto y ya está disponible para su descarga. Sin embargo, su funcionalidad está exclusivamente ligada al ecosistema de hardware de Nvidia. La compañía ofrece su computadora Jetson Thor DGX específicamente para aplicaciones robóticas y ha anunciado simultáneamente nuevas GPU de grado profesional. Las GPU RTX Pro 6000 están destinadas a servidores de alta gama, mientras que las GPU RTX Pro 4000 y 2000, todas construidas sobre la avanzada arquitectura Blackwell, están diseñadas para estaciones de trabajo de escritorio de alta gama.

Cosmos Reason es una adición estratégica a la línea de productos Omniverse de Nvidia, que abarca sus herramientas de construcción de mundos y simulación. Los productos Omniverse se centran en la creación de representaciones de gemelos digitales precisas de objetos físicos del mundo real. Los datos enriquecidos generados dentro de estos entornos virtuales se utilizan luego para crear conjuntos de datos sintéticos, que son fundamentales para entrenar modelos sofisticados de lenguaje visual como Cosmos Reason, con el objetivo final de impulsar la productividad en fábricas, almacenes, sistemas robóticos, vehículos y otros dominios físicos.