SalesforceのCoAct-1 AIエージェント:コードとクリックでGUIタスクを高速化
Salesforceと南カリフォルニア大学の研究者たちは、AIエージェントにハイブリッドな能力、すなわちコード実行とグラフィカルユーザーインターフェース(GUI)ナビゲーションを同時に行わせる新しい技術を発表しました。CoAct-1と名付けられたこの革新的なシステムは、スクリプトの精度と従来のポイント&クリック操作の直感的なインタラクションを組み合わせることで、ワークフローを加速し、エラーを劇的に削減する大きな飛躍を意味します。CoAct-1は、プログラムによってより適切に処理されるタスクにおいて、しばしば脆弱で非効率なマウスクリックをエージェントが回避できるようにすることで、エージェントのパフォーマンスに新たなベンチマークを設定し、以前の方法よりもはるかに少ないステップで複雑なコンピュータタスクを達成します。この画期的な進歩は、より堅牢でスケーラブルな自動化を約束し、広範な実世界アプリケーションへの扉を開きます。
現在のコンピュータ利用エージェントは、主に視覚情報と言語を解釈して、マウスとキーボードによる人間の操作を模倣するAIモデルに依存しています。これらのGUIベースのエージェントはさまざまなタスクを実行できますが、特にオフィス生産性スイートのような、メニューが密集し、多くのオプションを持つアプリケーション内での長く複雑なワークフローに直面すると、しばしば失敗します。例えば、エージェントがスプレッドシート内の特定のテーブルを見つけ、その内容をフィルタリングし、新しいファイルとして保存するタスクを考えてみてください。このような操作は、正確で広範なGUI操作のシーケンスを必要とします。まさにここに脆さが生じます。研究者たちが論文で指摘しているように、既存のエージェントは、視覚的に類似したアイコンやメニュー項目を区別する視覚的な曖昧さや、長いシーケンス全体で単一のエラーを犯す累積確率にしばしば苦労します。一度の誤クリックやUI要素の誤解釈が、タスク全体を台無しにする可能性があります。
これらの課題を軽減するため、多くの研究者は、GUIエージェントをハイレベルプランナーで強化することに焦点を当ててきました。強力な推論モデルを用いて、ユーザーの全体的な目標を、より小さく管理しやすい一連のサブタスクに分解するのです。この構造化されたアプローチはパフォーマンスを向上させますが、数行のコードでより直接的かつ確実に完了できる操作であっても、メニューをナビゲートしたりボタンをクリックしたりする問題を根本的に解決するものではありません。
ここに、CoAct-1(Computer-using Agent with Coding as Actionsの略)が革新的な解決策を提供します。CoAct-1は、GUI操作の直感的で人間らしい強みと、コードを介した直接的なシステムインタラクションの精度、信頼性、効率性を融合させるように設計されており、オーケストレーター、プログラマー、GUIオペレーターという3つの専門エージェントからなる協調チームとして機能します。オーケストレーターは中央のプランナーとして機能し、ユーザーの目標を分析し、それをサブタスクに分解し、それぞれを最も適切なエージェントにインテリジェントに委任します。ファイル管理やデータ処理のようなバックエンド操作はプログラマーに割り当てられ、プログラマーはPythonやBashスクリプトを巧みに記述し実行します。ボタンクリックや視覚的なインターフェースナビゲーションを必要とするフロントエンドタスクの場合、オーケストレーターはGUIオペレーターに委ねます。これは、視覚的インタラクションのために特別に設計されたAIモデルです。この動的な委任により、CoAct-1は、適切な場合には非効率なGUIシーケンスを戦略的に迂回し、堅牢な単一コード実行を選択できる一方で、不可欠なタスクでは視覚的インタラクションを引き続き活用します。ワークフローは反復的で、各サブタスクの完了後、オーケストレーターにサマリーとスクリーンショットが返送され、オーケストレーターは次のアクションを決定するか、タスクを完了します。プログラマーとGUIオペレーターの両方が洗練されたインタープリターを活用して、行動をテストし洗練させ、精度を確保します。
CoAct-1の能力は、ブラウザ、統合開発環境、オフィスアプリケーションにわたる369の現実世界タスクを特徴とする包括的なベンチマークであるOSWorldで厳密にテストされました。結果は説得力があります。CoAct-1は、60.76%という新しい最先端の成功率を達成しました。パフォーマンスの向上は、OSレベルのタスクやマルチアプリケーションワークフローなど、プログラムによる制御が明確な利点を提供するカテゴリで特に顕著でした。例えば、複雑なフォルダ構造内にあるすべての画像ファイルを見つけ、サイズを変更し、ディレクトリ全体を圧縮するようなOSレベルのタスクを考えてみましょう。純粋なGUIベースのエージェントでは、長くエラーが発生しやすい一連のクリックとドラッグが必要になります。対照的に、CoAct-1はこのワークフロー全体をプログラマーエージェントに委任でき、プログラマーエージェントは単一の堅牢なスクリプトでタスクを完了できます。成功率が高いだけでなく、システムは劇的に効率的で、タスクを平均わずか10.15ステップで解決します。これは、GTA-1のような主要なGUI専用エージェントが通常必要とする15.22ステップと比較して顕著な改善です。この効率性は非常に重要です。なぜなら、研究者たちは、より多くのアクションを必要とするタスクほど失敗しやすいという明確な傾向を観察したからです。ステップ数を減らすことで、CoAct-1はタスク完了を高速化するだけでなく、さらに重要なことに、エラーの機会を最小限に抑え、汎用的なコンピュータ自動化に向けたより堅牢でスケーラブルな道筋を切り開きます。
この技術の潜在的な影響は、一般的な生産性をはるかに超え、APIへのフルアクセスがしばしば贅沢である複雑な多機能プロセスを自動化しようとする企業リーダーに大きな価値を提供します。論文の共著者であり、Salesforceの応用AI研究ディレクターであるRan Xu氏は、顧客サポートを好例として挙げています。サービスエージェントは、Salesforceのような一般的なプラットフォームから、医療分野のEPICのような業界固有のアプリケーション、さらに多くのカスタムツールまで、多種多様なツールを頻繁に利用して顧客の要望に対応しています。これらのツールの多くはAPIアクセスを欠いているため、CoAct-1の理想的な候補となります。CoAct-1は、API、コード、直接画面操作など、利用可能なあらゆるインタラクション方法を活用できます。Xu氏はまた、大規模な見込み客の発掘や自動簿記などの営業における高価値アプリケーションや、顧客セグメンテーションやキャンペーン資産生成などのマーケティングにおけるタスクも特定しています。
その印象的なベンチマーク性能にもかかわらず、実際の企業環境には、レガシーソフトウェアや予測不可能なユーザーインターフェースなど、固有の課題が存在します。これにより、堅牢性、セキュリティ、そして人間の監視の必要性に関する重要な疑問が提起されます。オーケストレーターエージェントが未知のアプリケーションに直面したときに正しい選択をすることを保証することは、中心的な課題です。Xu氏によると、CoAct-1のようなエージェントをカスタム企業ソフトウェアに対して堅牢にするには、現実的なシミュレートされた環境での広範なトレーニングが必要です。最終的な目標は、エージェントが人間のエージェントから学び、サンドボックスで訓練し、その後、人間の指導とガードレールのもとでライブ運用できるシステムです。プログラマーエージェントが自身のコードを実行する能力も、明白なセキュリティ上の懸念、特に曖昧なユーザーリクエストに基づいて有害なコードを実行するリスクをもたらします。Xu氏は、堅牢な封じ込めが最重要であり、アクセス制御とサンドボックス化が鍵であると強調しています。人間は、その影響を理解し、安全のためにAIアクセスを許可する必要があります。サンドボックス化とガードレールは、機密システムに展開する前にエージェントの動作を検証するために不可欠です。最終的に、近い将来においては、曖昧さを克服するためには人間の関与が必要となる可能性が高いでしょう。Xu氏は、すべてのタスクで人間が関与する段階的なアプローチを構想しており、一部のタスクは最終的に完全な自律性を達成するでしょう。しかし、ミッションクリティカルな操作では、安全性と正確性を確保するために人間の検証が引き続き不可欠です。