CoAct-1：ハイブリッドAIエージェントがOSWorldベンチマーク新記録を樹立

南カリフォルニア大学、Salesforce AI、ワシントン大学の研究者からなる共同チームは、自律的なコンピューター操作を大幅に進歩させるために設計された画期的なマルチエージェントシステム「CoAct-1」を発表しました。この革新的なシステムは、直接コーディングを主要なアクションとして昇格させ、従来のグラフィカルユーザーインターフェース（GUI）操作と同等に位置づけることで、AIエージェントがコンピューターと対話する方法を再定義します。この根本的な転換は、複雑な多段階のコンピュータータスクを処理する際のAIの効率と信頼性に関連する長年の課題に対処します。挑戦的なOSWorldベンチマークにおいて、CoAct-1は60.76%という前例のない成功率を達成し、60%のしきい値を超えた初のAIエージェントとなりました。

従来のコンピューター操作AIエージェントは、通常、ピクセルベースのGUI操作にのみ依存し、インターフェースをナビゲートしたり、要素をクリックしたり、入力したりすることで人間ユーザーを模倣します。このアプローチは人間のワークフローを再現することを可能にする一方で、特に散らかったインターフェース、複数のアプリケーションにまたがるワークフロー、または複雑なオペレーティングシステム操作を含む複雑なタスクにおいては、脆弱で非効率であることが多いです。たった一度の誤クリックでワークフロー全体が台無しになる可能性があり、タスクが複雑になるにつれて、必要なステップの数は劇的に膨れ上がることがあります。これらの問題を軽減するための努力、例えばGUIエージェントを高レベルのプランナーで補強する試みも行われてきましたが、これらの方法は最終的にGUI中心のアクション空間の固有の制約によって制限され、効率と全体的な堅牢性の両方を妨げています。

CoAct-1は、3つの専門AIエージェントを統合したハイブリッドアーキテクチャを通じて、根本的に異なるアプローチを導入しています。その核となるのは、複雑なタスクをより小さなサブタスクに分解する役割を担う高レベルプランナーであるオーケストレーターです。重要なのは、オーケストレーターがタスクの特定の要件に基づいて、各サブタスクをプログラマーまたはGUIオペレーターのいずれかに動的に委任することです。プログラマーエージェントは、ファイル管理、データ処理、環境設定などのバックエンド操作を、直接PythonまたはBashスクリプトを実行することで処理し、しばしば煩雑でエラーが発生しやすいGUIアクションのシーケンスを回避します。これを補完するように、GUIオペレーターは、人間のようなUIナビゲーションが不可欠な場合に、視覚情報と言語を解釈してグラフィカルインターフェースと対話できるAIモデルを利用します。このハイブリッドモデルにより、CoAct-1は、脆く長いマウスキーボード操作を簡潔で信頼性の高いコード実行に戦略的に置き換えつつ、必要なときに正確にGUIインタラクションを活用することができます。

システムの機能はOSWorldで厳密に評価されました。OSWorldは、オフィス生産性スイート、統合開発環境（IDE）、ウェブブラウザ、ファイルマネージャー、複数アプリケーションワークフローを含む369の多様なタスクからなる主要なベンチマークです。OSWorldの各タスクは実世界の言語目標を反映しており、詳細なルールベースの採点システムを使用して評価されます。CoAct-1のパフォーマンスは目覚ましいものでした。100ステップ以上のカテゴリで60.76%の全体成功率を達成し、GTA-1（53.10%）、OpenAI CUA 4o（31.40%）、UI-TARS-1.5（29.60%）などの主要なフレームワークを上回りました。さらに、CoAct-1は優れた効率性を示し、成功したタスクを平均わずか10.15ステップで完了しました。これはGTA-1の15.22ステップやUI-TARSの14.90ステップよりも大幅に少ないです。OpenAI CUA 4oはより少ないステップ（6.14）で達成しましたが、成功率は31.40%と著しく低く、CoAct-1の速度と精度のバランスが際立っています。このシステムは、複数アプリケーションワークフロー（GTA-1の38.34%に対し47.88%の成功率）とオペレーティングシステムタスク（75.00%）において特に強みを発揮し、生産性およびIDEの分野で常に最高のパフォーマンスをリードまたは匹敵しました。

CoAct-1の目覚ましい成果の背景にあるいくつかの重要な洞察があります。コーディングアクションを直接実行する能力は、数多くの冗長でエラーが発生しやすいGUIシーケンスを置き換えます。例えば、単一のスクリプトでバッチ画像のリサイズや高度なファイル操作を自動化でき、そうでなければ何十回ものクリックが必要になるところを、ステップ数と潜在的な失敗ポイントの両方を劇的に削減します。オーケストレーターの動的な委任は、コーディングとGUIアクションの両方を最適に活用し、タスクのニーズに適応させます。さらに、研究は、より強力な基盤となるAIモデルを統合することでパフォーマンスが大幅に向上することを示しています。最高の60.76%のスコアを達成した構成では、GUIオペレーターにOpenAI CUA 4o、オーケストレーターにOpenAI o3、プログラマーにo4-miniが活用されました。この相関関係は、システムの効率がその信頼性に直接貢献することを示唆しています。なぜなら、ステップ数が少ないほど本質的にエラーの機会が減り、それがタスク完了の成功の強力な予測因子となるからです。

CoAct-1は、コーディングをGUI操作と並ぶ第一級のシステムアクションとすることで、自律型コンピューターエージェントの成功率と効率の両方において大きな飛躍を遂げました。そのハイブリッドアーキテクチャと動的実行ロジックは、この分野に新たなベンチマークを設定し、実世界でのコンピューター自動化における堅牢な進歩を告げています。

CoAct-1：ハイブリッドAIエージェントがOSWorldベンチマーク新記録を樹立

関連記事

Inclusion Arena：LLMの真価を実世界利用で測る新基準

視覚AIモデルが「存在しない錯覚」を見る：機械知覚のギャップが明らかに

AIが「心の声」を解読：新型脳インプラントがコミュニケーションを変革