GPT-5の視覚:最先端VLM、新たなSOTAではない

Latent

OpenAIが満を持して発表したGPT-5は、最近、その視覚および視覚推論能力について厳密な評価を受け、Roboflowの研究者たちがこの新モデルを徹底的に検証しました。GPT-5は一般的な視覚理解において目覚ましい進歩を示しているものの、初期評価では、視覚認識および位置特定タスクにおけるそのパフォーマンスは、新たなSOTA(State-of-the-Art)を確立するのではなく、現在利用可能な最高のモデルと密接に一致していることが示唆されています。興味深いことに、評価ではGPT-5-Miniがその大型版と同一の視覚スコアを達成したことが明らかになり、これは評価者たちが効果的なモデルルーターが機能していると評する証拠となっています。

堅牢な視覚理解を大規模言語モデル(LLM)に統合することは、長らく大きな課題でした。多くのモデルは、写真内の特定のオブジェクトを正確に数えたり、画像内のアイテムの位置を正確に特定したりするなどの、一見単純なタスクでも依然として苦労しています。しかし、LLMがリアルタイムで現実世界を解釈し、相互作用する能力は、自律型ロボット、より直感的な人間とコンピューターのインタラクション、そしてパーソナライズされた超知能の可能性への道を開く、極めて重要なブレイクスルーと見なされています。

現在の視覚言語モデル(VLM)の状況には、OpenAI(GPTおよび「o」シリーズ)、Google(Gemini)、Anthropic(Claude)、Meta(Llama)などの主要プレイヤーからの提供が含まれます。これらのモデルは、さまざまな視覚タスクにおいて異なる強みと弱みを示します。一般的に、標識、レシート、CAPTCHAからテキストを読み取ったり、色を理解したりするなど、簡単な課題にはうまく対応します。しかし、正確なカウント、空間理解、詳細な物体検出、包括的な文書分析など、より複雑な要求では、特に基礎となる事前学習データにこれらの特定のシナリオの十分な例が不足している場合、パフォーマンスに大きな一貫性のなさが明らかになります。

多様なタスク間でのパフォーマンス比較の課題に対処するため、Roboflowは「難易度の高いタスクのフロンティアパフォーマンス」を評価するために設計されたオープンソースの評価リーダーボードであるVision Checkupを立ち上げました。OpenAIモデルはこのリーダーボードを一貫して支配しており、GPT-5は現在トップ5に名を連ねています。この好成績は、主にモデルの高度な推論能力に起因しており、これは広範な事前学習中に開発され、テスト中に洗練されました。これは、マルチモーダルLLMにおける重要な進化を示しています。つまり、テキスト情報と視覚情報の両方で推論する能力が向上したということです。それにもかかわらず、推論モデルの非決定的な性質によりスコアは変動する可能性があり、同じプロンプトが異なる回答を生成することもあります。さらに、画像推論の現実世界での展開には実用的な制限があり、画像の処理には10秒以上かかる場合があり、回答のばらつきがあるため、リアルタイムアプリケーションでの信頼性は低いとされています。開発者はしばしば速度と包括的な機能の間のトレードオフに直面し、より高速で狭い範囲に焦点を当てたモデルを選択することもあります。

一般的な「雰囲気チェック」を超え、LLMが現実世界をどれほど真に理解しているかについて、より厳密な評価を提供するため、Roboflowは今年のCVPR会議で新しいベンチマークであるRF100-VLを導入しました。このベンチマークは、物体検出バウンディングボックス、マルチモーダルな少数ショット命令、視覚的な例、および新しい画像ドメインにわたる豊富なテキスト記述を特徴とする100のオープンソースデータセットで構成されています。RF100-VLでは、トップLLMは一般的に、物体検出精度を測る主要な指標であるmAP50:95メトリックで10未満のスコアを記録しています。GoogleのGemini 2.5 Proは現在、LLMの中でトップを走っており、ゼロショットmAP50:95で13.3を達成しています。

対照的に、GPT-5はRF100-VLベンチマークでわずか1.5のmAP50:95スコアを記録しました。この大きな格差は、GPT-5の事前学習において物体検出に特化したデータが明らかに不足していることに大きく起因しています。例えば、バレーボールのデータセットを用いた評価では、GPT-5は画像のコンテンツを明確に理解し、ボール、ブロッカー、ディフェンダーを正しく識別しました。しかし、これらのオブジェクトを正確に位置特定することには一貫して失敗し、バウンディングボックスはしばしばずれたり、サイズが不正確だったりしました。このパターンは、羊を特徴とする別のデータセットでも観察されており、モデルが視覚シーンを理解しているにもかかわらず、その中の特定のオブジェクトを「グラウンディング」することに苦労していることを示しています。これは物体検出の事前学習が不十分であることの直接的な結果です。同様に、UI要素データセットで評価された場合、GPT-5は品質において有意な改善を示しませんでした。

GPT-5は、より単純な視覚タスクにおいて、以前のOpenAIモデル(GPT-4oなど)と比較してわずかな改善を示し、より詳細な指示から恩恵を受けていますが、RF100-VLでのそのパフォーマンスは重要な区別を浮き彫りにしています。それは、理解が正確な位置特定と等価ではないということです。GPT-5をVision Checkupリーダーボードのトップに押し上げた強化された推論能力は、「推論努力」が増加しても、RF100-VLでのより良い物体検出にはつながりません。これは、視覚言語モデルの明確な進路を示唆しています。次世代モデルは、視覚情報をより深く処理するだけでなく、現実世界のコンテキスト内でオブジェクトを正確に特定し理解し、抽象的な理解を超えて具体的で局所的な理解へと移行する必要があります。