Clarifai: B200 de NVIDIA supera a H100 en pruebas GPT-OSS

Clarifai

El panorama de la inteligencia artificial continúa su rápida evolución, con nuevos modelos de peso abierto e innovaciones de hardware que superan los límites de lo posible. Las recientes perspectivas de Clarifai destacan avances significativos, particularmente en el ámbito del rendimiento de los modelos de lenguaje grandes (LLM) en hardware de vanguardia, junto con herramientas expandidas para desarrolladores.

A la vanguardia de estos desarrollos se encuentran los modelos GPT-OSS-120b y GPT-OSS-20b de OpenAI, recientemente lanzados, una generación de modelos de razonamiento de peso abierto disponibles bajo la licencia Apache 2.0. Diseñados para un robusto seguimiento de instrucciones, una potente integración de herramientas y capacidades de razonamiento avanzadas, estos modelos están preparados para impulsar la próxima ola de procesos automatizados impulsados por IA. Su arquitectura presenta un diseño de Mezcla de Expertos (MoE) y una longitud de contexto extendida de 131,000 tokens. Notablemente, el modelo de 120 mil millones de parámetros puede operar eficientemente en una sola GPU de 80 GB, gracias a técnicas avanzadas de cuantificación, equilibrando la escala masiva con la implementación práctica. Los desarrolladores ganan flexibilidad, pudiendo ajustar los niveles de razonamiento para optimizar la velocidad, el costo o la precisión, y aprovechar funcionalidades integradas como la navegación web, la ejecución de código y la integración de herramientas personalizadas para tareas complejas.

El equipo de investigación de Clarifai sometió recientemente el modelo GPT-OSS-120b a rigurosas pruebas de rendimiento en GPUs NVIDIA B200 y H100, empleando sofisticados frameworks de inferencia como vLLM, SGLang y TensorRT-LLM. Las pruebas abarcaron tanto escenarios de una sola solicitud como cargas de trabajo de alta concurrencia, simulando entornos con 50 a 100 solicitudes simultáneas. Los resultados subrayan el potencial transformador de la arquitectura B200. En escenarios de una sola solicitud, el B200, cuando se combina con TensorRT-LLM, logró un notable tiempo hasta el primer token (TTFT) de solo 0.023 segundos, superando a las configuraciones de doble H100 en varias instancias. Para demandas de alta concurrencia, el B200 demostró un rendimiento sostenido superior, manteniendo 7,236 tokens por segundo a máxima carga con una latencia reducida por token. Estos hallazgos sugieren que una sola GPU B200 puede igualar o superar el rendimiento de dos H100, ofreciendo simultáneamente un menor consumo de energía y una infraestructura simplificada. Algunas cargas de trabajo incluso experimentaron un aumento de hasta 15 veces en la velocidad de inferencia en comparación con una sola H100. Si bien los modelos GPT-OSS son actualmente desplegables en H100 a través de Clarifai en múltiples entornos de nube, el soporte para B200s se anticipa pronto, prometiendo acceso a la última tecnología de GPU de NVIDIA tanto para pruebas como para producción.

Más allá de la optimización de hardware, Clarifai está mejorando su plataforma para desarrolladores. La función “Local Runners”, que permite a los usuarios ejecutar modelos de código abierto en su propio hardware mientras aún aprovechan la plataforma Clarifai, ha tenido una adopción significativa. Esta capacidad ahora se extiende a los últimos modelos GPT-OSS, incluido GPT-OSS-20b, lo que empodera a los desarrolladores con control total sobre sus recursos de cómputo para pruebas locales e implementación instantánea de flujos de trabajo de agentes. Para facilitar esto aún más, Clarifai ha introducido un nuevo Plan para Desarrolladores a un precio promocional de solo $1 por mes. Este plan amplía el Plan Comunitario existente al permitir la conexión de hasta cinco Local Runners y ofrecer horas de ejecución ilimitadas.

Clarifai también ha ampliado significativamente su biblioteca de modelos, poniendo a disposición una diversa gama de modelos de peso abierto y especializados para varios flujos de trabajo. Entre las últimas adiciones se encuentran el GPT-OSS-120b, diseñado para un razonamiento sólido y una implementación eficiente en el dispositivo; los GPT-5, GPT-5 Mini y GPT-5 Nano, que se adaptan a tareas de razonamiento exigentes, aplicaciones en tiempo real e implementaciones de borde de ultra baja latencia, respectivamente; y Qwen3-Coder-30B-A3B-Instruct, un modelo de codificación de alta eficiencia con robustas capacidades de agente, adecuado para la generación de código y la automatización del desarrollo. Estos modelos son accesibles a través de Clarifai Playground o mediante API para su integración en aplicaciones personalizadas.

Para optimizar aún más la implementación de modelos locales, Clarifai ha integrado soporte para Ollama, una herramienta popular para ejecutar modelos de código abierto directamente en máquinas personales. Esta integración permite que los Local Runners expongan modelos Ollama alojados localmente a través de una API pública segura, y un nuevo kit de herramientas de Ollama dentro de Clarifai CLI simplifica el proceso de descarga, ejecución y exposición de estos modelos con un solo comando.

También se han implementado mejoras en la experiencia del usuario en Clarifai Playground, incluida la capacidad de comparar múltiples modelos lado a lado. Esta característica permite a los desarrolladores discernir rápidamente las diferencias en la salida, la velocidad y la calidad, facilitando así la selección óptima del modelo. Los controles de inferencia mejorados, el soporte Pythonic y los selectores de versión de modelo refinan aún más el proceso de experimentación. Las actualizaciones adicionales de la plataforma incluyen mejoras en el SDK de Python para un mejor registro y manejo de pipelines, una facturación refinada basada en tokens y una mayor visibilidad de precios de flujos de trabajo, junto con mejoras en Clarifai Organizations para una mejor gestión de usuarios.

A través de sus capacidades de Orquestación de Cómputo, Clarifai está permitiendo la implementación de modelos avanzados como GPT-OSS y Qwen3-Coder en GPUs dedicadas, ya sea en las instalaciones o en la nube. Esto proporciona a los desarrolladores un control granular sobre el rendimiento, el costo y la seguridad para el servicio de modelos, servidores de plataforma multinube (MCP) o flujos de trabajo de agentes completos directamente desde su hardware.