Clarifai、NVIDIA H100およびB200でGPT-OSSをベンチマーク:B200が優位性を示す
人工知能の分野は急速な進化を続けており、新しいオープンウェイトモデルとハードウェアの革新が可能性の境界を押し広げています。Clarifaiの最近の洞察は、特に最先端のハードウェアにおける大規模言語モデル(LLM)のパフォーマンスと、開発者向けの拡張されたツールにおいて、重要な進歩を浮き彫りにしています。
これらの進展の最前線にあるのは、OpenAIが新たにリリースしたGPT-OSS-120bおよびGPT-OSS-20bモデルです。これらはApache 2.0ライセンスの下で利用可能になったオープンウェイト推論モデルの世代です。堅牢な命令追従、強力なツール統合、および高度な推論能力のために設計されたこれらのモデルは、AI駆動の自動化プロセスの次の波を推進する態勢を整えています。そのアーキテクチャは、エキスパート混合(MoE)設計と131,000トークンという拡張されたコンテキスト長を特徴としています。特に、1200億パラメータモデルは、高度な量子化技術のおかげで、単一の80GB GPUで効率的に動作でき、大規模なスケールと実用的なデプロイメントのバランスを取っています。開発者は、速度、コスト、または精度を最適化するために推論レベルを微調整する柔軟性を得て、ウェブブラウジング、コード実行、および複雑なタスクのためのカスタムツール統合などの組み込み機能を活用できます。
Clarifaiの研究チームは最近、GPT-OSS-120bモデルをNVIDIA B200およびH100 GPU上で、vLLM、SGLang、TensorRT-LLMなどの洗練された推論フレームワークを使用して厳格なベンチマークテストにかけました。テストは、単一リクエストシナリオと高並行ワークロードの両方を網羅し、50から100の同時リクエストがある環境をシミュレートしました。結果は、B200アーキテクチャの変革的な可能性を強調しています。単一リクエストシナリオでは、B200はTensorRT-LLMと組み合わせることで、わずか0.023秒という驚異的な初回トークン生成時間(TTFT)を達成し、いくつかのインスタンスでデュアルH100セットアップを上回りました。高並行要求の場合、B200は優れた持続スループットを示し、最大負荷で毎秒7,236トークンを維持し、トークンあたりのレイテンシを削減しました。これらの発見は、単一のB200 GPUが2つのH100の性能に匹敵するか、それを超えることができることを示唆しており、同時に低消費電力と簡素化されたインフラストラクチャを提供します。一部のワークロードでは、単一のH100と比較して推論速度が最大15倍に増加することさえありました。GPT-OSSモデルは現在、Clarifaiを介して複数のクラウド環境でH100にデプロイ可能ですが、B200のサポートも間もなく期待されており、テストと生産の両方でNVIDIAの最新GPUテクノロジーへのアクセスが約束されています。
ハードウェアの最適化を超えて、Clarifaiは開発者向けのプラットフォームを強化しています。ユーザーがClarifaiプラットフォームを活用しながら、自身のハードウェアでオープンソースモデルを実行できる「Local Runners」機能は、大きな採用が見られています。この機能は、GPT-OSS-20bを含む最新のGPT-OSSモデルにも拡張され、開発者がローカルテストやエージェントワークフローの即時デプロイメントのために、自身の計算リソースを完全に制御できるようになりました。これをさらに促進するため、Clarifaiは月額わずか1ドルのプロモーション価格で新しい開発者プランを導入しました。このプランは、既存のコミュニティプランを拡張し、最大5つのLocal Runnersの接続を可能にし、無制限のランナー時間を提供します。
Clarifaiはまた、モデルライブラリを大幅に拡張し、さまざまなワークフローに対応する多様なオープンウェイトおよび専門モデルを容易に利用できるようにしました。最新の追加には、強力な推論と効率的なオンデバイスデプロイメントのために設計されたGPT-OSS-120b、要求の厳しい推論タスク、リアルタイムアプリケーション、超低レイテンシのエッジデプロイメントにそれぞれ対応するGPT-5、GPT-5 Mini、GPT-5 Nano、そしてコード生成と開発自動化に適した堅牢なエージェント機能を備えた高効率コーディングモデルであるQwen3-Coder-30B-A3B-Instructが含まれます。これらのモデルは、Clarifai PlaygroundまたはAPIを介してアクセスでき、カスタムアプリケーションに統合できます。
ローカルモデルのデプロイメントをさらに効率化するため、ClarifaiはOllamaのサポートを統合しました。Ollamaは、個人用マシンでオープンソースモデルを直接実行するための人気のツールです。この統合により、Local Runnersはセキュアな公開APIを介してローカルにホストされたOllamaモデルを公開できるようになり、Clarifai CLI内の新しいOllamaツールキットは、単一のコマンドでこれらのモデルをダウンロード、実行、および公開するプロセスを簡素化します。
Clarifai Playgroundでは、複数のモデルを並べて比較する機能など、ユーザーエクスペリエンスの改善も展開されています。この機能により、開発者は出力、速度、品質の違いを迅速に識別でき、最適なモデル選択を容易にします。強化された推論制御、Pythonicサポート、およびモデルバージョンセレクターは、実験プロセスをさらに洗練します。追加のプラットフォームアップデートには、より良いロギングとパイプライン処理のためのPython SDKの改善、トークンベースの課金の洗練、ワークフロー料金の可視性の向上、およびより良いユーザー管理のためのClarifai Organizationsの改善が含まれます。
Clarifaiは、その計算オーケストレーション機能を通じて、GPT-OSSやQwen3-Coderのような高度なモデルを、オンプレミスまたはクラウドの専用GPUにデプロイすることを可能にしています。これにより、開発者はモデルの提供、マルチクラウドプラットフォーム(MCP)サーバー、または完全なエージェントワークフローを自身のハードウェアから直接実行するためのパフォーマンス、コスト、セキュリティに対するきめ細かな制御を得ることができます。