OpenAIの旧モデルo3が複雑なオフィス業務で新型GPT-5を凌駕
実際のオフィス環境における人工知能の限界を押し広げるために設計された新しいベンチマークが、驚くべき結果をもたらしました。OpenAIの既存モデルであるo3が、複雑なマルチアプリケーションタスクにおいて、より新しいGPT-5モデルを継続的に上回る性能を示したのです。この発見は、最近導入されたOdysseyBenchに基づくもので、複雑で長期間にわたるワークフローにおけるAIエージェントの能力の進歩が、予期せぬ形で進化している可能性を示唆しています。
マイクロソフトとエディンバラ大学の研究者によって開発されたOdysseyBenchは、孤立した「アトミックタスク」(単純な単一ステップのコマンド)を超え、AIモデルが数日間にわたって展開されるシナリオをどのように処理するかを評価することを目的としており、実際のオフィス業務を模倣しています。このベンチマークには、Word、Excel、PDF、電子メール、カレンダーツールなどの一般的なアプリケーションにまたがる602のタスクが含まれています。これらのタスクは、OfficeBenchから派生した300の現実的なシナリオであるOdysseyBench+と、新たに構築された302の非常に挑戦的な状況であるOdysseyBench-Neoの2つの主要カテゴリに分けられます。どちらのセクションも、モデルが数日間にわたる会話から情報を抽出し、多段階の計画を策定し、さまざまなオフィスツール間でアクションを同期することを要求します。
これらのAIエージェントにとっての主要な課題は、長期にわたる対話駆動型のオフィス業務を解決することです。OdysseyBench+とOdysseyBench-Neoの両方において、OpenAIのo3モデルはGPT-5を継続的にリードしました。最も要求の厳しい手作業で作成されたタスクを特徴とするOdysseyBench-Neoでは、o3は61.26%の成功率を達成し、GPT-5の55.96%とGPT-5-chatの57.62%を大きく上回りました。3つのアプリケーションを同時に使用する必要があるタスクでは、パフォーマンスの差はさらに広がり、o3が59.06%を記録したのに対し、GPT-5は53.80%でした。
OdysseyBench+での結果も同様の傾向を示しました。ここでは、o3が56.2%を記録し、GPT-5の54.0%、GPT-5-chatの40.3%を上回りました。2つまたは3つのアプリケーションの連携を伴うタスクでは、文脈理解と綿密な計画が最も重要であるため、この差はさらに顕著になりました。興味深いことに、GPT-5-chatはOdysseyBench-NeoでGPT-5を予期せず上回りました。研究者たちはこれを、Neoタスクが対話ベースの支援に焦点を当てており、それがGPT-5-chatの会話能力と一致しているためだと考えています。逆に、OdysseyBench+にはより断片的で会話的でないシナリオが含まれており、推論に焦点を当てたGPT-5は、断片的な入力から関連情報を抽出する能力が優れていることを示しました。なお、本研究では、GPT-5の推論設定(「思考時間」や特定のエージェントパラメータなど)は明記されておらず、より高度なGPT-5 Proモデルも評価には含まれていませんでした。
これらの発見は、OpenAIが数時間、あるいは数日間「思考」できるAIエージェントの開発を積極的に追求しており、最終的な目標が医学やAI安全などの分野で新しいアイデアを生み出し、研究を自動化することであるため、重要な意味を持っています。OdysseyBenchは、これらの初期の長期的システムにとって極めて重要なベンチマークとなる可能性があります。同時に、この結果は進歩のペースが潜在的に減速していることを微妙に示唆しています。o3とGPT-5はどちらも以前のモデルに対する明確な進歩を示していますが、特にo3が4月に正式リリースされたばかりであることを考えると、o3からGPT-5への能力の飛躍は認められません。
ベンチマーク結果を詳しく調べると、複雑なワークフローにおける現在のAIエージェントにとって、いくつかの持続的な課題が明らかになります。モデルは、重要なファイルを見落としたり、必要な手順をスキップしたり、特定のタスクに間違ったツールを使用しようとしたりすることが頻繁にあります。たとえば、一部のエージェントはWordで元のテキストを作成する前にPDFファイルを生成しようとしたり、レビュー文書を作成する前にPDFからコンテンツを抽出できなかったりしました。DOCXおよびXLSXファイルの作成または編集を伴うタスクは特にエラーが発生しやすく、正確な多段階の連携を必要としました。これはエージェントが常に苦戦する領域でした。研究者たちは、これらの問題がより広範で根本的な課題を指摘していると結論付けています。今日のAIエージェントは、異なるツール、時間枠、およびコンテキストにまたがるタスクをナビゲートするために必要な正確な多段階計画に依然として苦労しています。さらなる探索に興味がある方のために、OdysseyBenchおよびHOMERAGENTSフレームワークはGitHubで公開されています。