Clarifai 基准测试 GPT-OSS:NVIDIA B200 性能超越 H100

Clarifai

人工智能领域持续快速演进,新的开放权重模型和硬件创新不断拓展着可能性的边界。Clarifai 最近的洞察报告突出了重大进展,尤其是在尖端硬件上大型语言模型(LLM)的性能方面,同时还为开发者扩展了工具。

这些进展的核心是 OpenAI 最新发布的 GPT-OSS-120b 和 GPT-OSS-20b 模型,这是一代在 Apache 2.0 许可下发布的开放权重推理模型。这些模型专为强大的指令遵循、强大的工具集成和高级推理能力而设计,有望推动人工智能驱动的自动化流程的下一波浪潮。它们的架构采用专家混合 (MoE) 设计,上下文长度扩展至 131,000 个令牌。值得注意的是,由于采用了先进的量化技术,1200 亿参数模型可以在单个 80 GB GPU 上高效运行,从而在大规模部署和实际部署之间取得了平衡。开发者获得了灵活性,能够微调推理级别以优化速度、成本或准确性,并利用内置功能(如网页浏览、代码执行和自定义工具集成)来完成复杂任务。

Clarifai 的研究团队最近使用 vLLM、SGLang 和 TensorRT-LLM 等复杂的推理框架,对 GPT-OSS-120b 模型在 NVIDIA B200 和 H100 GPU 上进行了严格的基准测试。测试涵盖了单请求场景和高并发工作负载,模拟了 50 到 100 个同时请求的环境。结果突显了 B200 架构的变革潜力。在单请求场景中,B200 与 TensorRT-LLM 结合使用时,实现了惊人的 0.023 秒的首令牌生成时间(TTFT),在多个实例中超越了双 H100 设置。对于高并发需求,B200 展示了卓越的持续吞吐量,在最大负载下保持每秒 7,236 个令牌,同时降低了每令牌延迟。这些发现表明,单个 B200 GPU 可以匹敌甚至超越两个 H100 的性能,同时还提供更低的功耗和简化的基础设施。一些工作负载甚至比单个 H100 的推理速度提高了 15 倍。虽然 GPT-OSS 模型目前可以通过 Clarifai 在多个云环境中部署到 H100 上,但对 B200 的支持预计很快就会推出,有望为测试和生产提供 NVIDIA 最新的 GPU 技术。

除了硬件优化,Clarifai 还在增强其开发者平台。“Local Runners”功能允许用户在自己的硬件上运行开源模型,同时仍利用 Clarifai 平台,该功能已获得显著采用。此功能现在扩展到最新的 GPT-OSS 模型,包括 GPT-OSS-20b,使开发者能够完全控制其计算资源,用于本地测试和代理工作流的即时部署。为进一步促进这一点,Clarifai 推出了新的开发者计划,推广价格仅为每月 1 美元。该计划在现有社区计划的基础上进行了扩展,允许连接多达五个 Local Runners 并提供无限的运行小时数。

Clarifai 还显著扩展了其模型库,提供了各种开放权重和专用模型,可用于不同的工作流。最新添加的模型包括:GPT-OSS-120b,专为强大的推理和高效的设备端部署而设计;GPT-5、GPT-5 Mini 和 GPT-5 Nano,分别满足要求苛刻的推理任务、实时应用和超低延迟边缘部署的需求;以及 Qwen3-Coder-30B-A3B-Instruct,这是一种高效编码模型,具有强大的代理能力,适用于代码生成和开发自动化。这些模型可通过 Clarifai Playground 或 API 访问,以便集成到自定义应用程序中。

为进一步简化本地模型部署,Clarifai 集成了对 Ollama 的支持,Ollama 是一种用于直接在个人机器上运行开源模型的流行工具。这种集成允许 Local Runners 通过安全的公共 API 暴露本地托管的 Ollama 模型,并且 Clarifai CLI 中新增的 Ollama 工具包通过单个命令简化了下载、运行和暴露这些模型的过程。

Clarifai Playground 还推出了用户体验改进,包括并排比较多个模型的功能。此功能使开发者能够快速辨别输出、速度和质量方面的差异,从而促进最佳模型选择。增强的推理控制、Pythonic 支持和模型版本选择器进一步完善了实验过程。其他平台更新包括改进 Python SDK 以提供更好的日志记录和管道处理,优化基于令牌的计费,以及增强工作流定价可见性,同时还改进了 Clarifai Organizations 以提供更好的用户管理。

通过其计算编排能力,Clarifai 使得在专用 GPU(无论是本地还是云端)上部署 GPT-OSS 和 Qwen3-Coder 等高级模型成为可能。这为开发者提供了对模型服务、多云平台 (MCP) 服务器或直接从其硬件执行完整代理工作流的性能、成本和安全性的精细控制。