Clarifai 基准测试 GPT-OSS：NVIDIA B200 性能超越 H100

人工智能领域持续快速演进，新的开放权重模型和硬件创新不断拓展着可能性的边界。Clarifai 最近的洞察报告突出了重大进展，尤其是在尖端硬件上大型语言模型（LLM）的性能方面，同时还为开发者扩展了工具。

这些进展的核心是 OpenAI 最新发布的 GPT-OSS-120b 和 GPT-OSS-20b 模型，这是一代在 Apache 2.0 许可下发布的开放权重推理模型。这些模型专为强大的指令遵循、强大的工具集成和高级推理能力而设计，有望推动人工智能驱动的自动化流程的下一波浪潮。它们的架构采用专家混合 (MoE) 设计，上下文长度扩展至 131,000 个令牌。值得注意的是，由于采用了先进的量化技术，1200 亿参数模型可以在单个 80 GB GPU 上高效运行，从而在大规模部署和实际部署之间取得了平衡。开发者获得了灵活性，能够微调推理级别以优化速度、成本或准确性，并利用内置功能（如网页浏览、代码执行和自定义工具集成）来完成复杂任务。

Clarifai 的研究团队最近使用 vLLM、SGLang 和 TensorRT-LLM 等复杂的推理框架，对 GPT-OSS-120b 模型在 NVIDIA B200 和 H100 GPU 上进行了严格的基准测试。测试涵盖了单请求场景和高并发工作负载，模拟了 50 到 100 个同时请求的环境。结果突显了 B200 架构的变革潜力。在单请求场景中，B200 与 TensorRT-LLM 结合使用时，实现了惊人的 0.023 秒的首令牌生成时间（TTFT），在多个实例中超越了双 H100 设置。对于高并发需求，B200 展示了卓越的持续吞吐量，在最大负载下保持每秒 7,236 个令牌，同时降低了每令牌延迟。这些发现表明，单个 B200 GPU 可以匹敌甚至超越两个 H100 的性能，同时还提供更低的功耗和简化的基础设施。一些工作负载甚至比单个 H100 的推理速度提高了 15 倍。虽然 GPT-OSS 模型目前可以通过 Clarifai 在多个云环境中部署到 H100 上，但对 B200 的支持预计很快就会推出，有望为测试和生产提供 NVIDIA 最新的 GPU 技术。

除了硬件优化，Clarifai 还在增强其开发者平台。“Local Runners”功能允许用户在自己的硬件上运行开源模型，同时仍利用 Clarifai 平台，该功能已获得显著采用。此功能现在扩展到最新的 GPT-OSS 模型，包括 GPT-OSS-20b，使开发者能够完全控制其计算资源，用于本地测试和代理工作流的即时部署。为进一步促进这一点，Clarifai 推出了新的开发者计划，推广价格仅为每月 1 美元。该计划在现有社区计划的基础上进行了扩展，允许连接多达五个 Local Runners 并提供无限的运行小时数。

Clarifai 还显著扩展了其模型库，提供了各种开放权重和专用模型，可用于不同的工作流。最新添加的模型包括：GPT-OSS-120b，专为强大的推理和高效的设备端部署而设计；GPT-5、GPT-5 Mini 和 GPT-5 Nano，分别满足要求苛刻的推理任务、实时应用和超低延迟边缘部署的需求；以及 Qwen3-Coder-30B-A3B-Instruct，这是一种高效编码模型，具有强大的代理能力，适用于代码生成和开发自动化。这些模型可通过 Clarifai Playground 或 API 访问，以便集成到自定义应用程序中。

为进一步简化本地模型部署，Clarifai 集成了对 Ollama 的支持，Ollama 是一种用于直接在个人机器上运行开源模型的流行工具。这种集成允许 Local Runners 通过安全的公共 API 暴露本地托管的 Ollama 模型，并且 Clarifai CLI 中新增的 Ollama 工具包通过单个命令简化了下载、运行和暴露这些模型的过程。

Clarifai Playground 还推出了用户体验改进，包括并排比较多个模型的功能。此功能使开发者能够快速辨别输出、速度和质量方面的差异，从而促进最佳模型选择。增强的推理控制、Pythonic 支持和模型版本选择器进一步完善了实验过程。其他平台更新包括改进 Python SDK 以提供更好的日志记录和管道处理，优化基于令牌的计费，以及增强工作流定价可见性，同时还改进了 Clarifai Organizations 以提供更好的用户管理。

通过其计算编排能力，Clarifai 使得在专用 GPU（无论是本地还是云端）上部署 GPT-OSS 和 Qwen3-Coder 等高级模型成为可能。这为开发者提供了对模型服务、多云平台 (MCP) 服务器或直接从其硬件执行完整代理工作流的性能、成本和安全性的精细控制。

Clarifai 基准测试 GPT-OSS：NVIDIA B200 性能超越 H100

相关文章

CUDA-L1：AI解锁3倍GPU性能，对比强化学习优化实现

Skywork UniPic 2.0 开源：统一多模态AI的突破性进展

麻省理工新开源AI工具：单字可骗过AI，也能助其更强