Memp:LLMエージェントの効率を生涯にわたる手続き記憶で向上

Marktechpost

大規模言語モデル(LLM)エージェントは著しく進歩し、ウェブ調査やレポート生成からデータ分析、多段階のソフトウェアワークフローに至るまで、複雑なタスクを処理する印象的な能力を示しています。これらの進歩にもかかわらず、決定的な限界が残っています。それは、手続き記憶との格闘です。過去の経験から本能的にルーチンを構築し再利用する人間とは異なり、現在のLLMエージェントが持つ手続き的知識は、しばしば硬直的で、手動でハードコードされているか、モデルの重みに深く埋め込まれています。この固有の柔軟性の欠如は、それらを著しく脆くします。ネットワークの停止やユーザーインターフェースの変更などの予期せぬ中断は、その操作の完全な再起動を必要とする場合があります。既存のフレームワークは構造的な抽象化を提供しますが、メモリのライフサイクル最適化はほとんど未解決のままであり、エージェントが学習した手続き的スキルを体系的に構築、洗練、再利用するのを妨げています。

記憶は言語エージェントの機能にとって不可欠であり、短期、エピソード、長期のコンテキストにわたる過去の相互作用を想起させることができます。現代のシステムは、情報ストレージと検索のためにベクトル埋め込み、セマンティック検索、階層構造などの技術を採用していますが、記憶、特に手続き記憶の効果的な管理は依然として大きな障害です。手続き記憶は、エージェントが繰り返しタスクを内面化し、自動化するために不可欠ですが、その構築、更新、再利用のための戦略は、ほとんど探求されていませんでした。同様に、エージェントは強化学習、模倣、リプレイなどの方法を通じて経験から学習しますが、効率の低さ、汎化能力の低さ、以前に学習した情報を忘れる傾向などの問題に頻繁に遭遇します。

これらの課題に対処するため、浙江大学とアリババグループの研究者らは、エージェントに生涯にわたる適応性の高い手続き記憶を装備させるために設計された革新的なフレームワークであるMempを導入しました。Mempは、過去の運用軌跡を、粒度の細かいステップレベルの指示と、より抽象的な高レベルのスクリプトの両方に根本的に変換します。重要なことに、記憶の構築、検索、継続的な更新のための体系的な戦略を提供します。知識を固定する静的なアプローチとは異なり、Mempは、追加、検証、反省、および古い情報の破棄のサイクルを通じて記憶を動的に洗練させ、それによって関連性と効率を確保します。ALFWorldとTravelPlannerという2つの異なる環境での包括的なテストでは、Mempがタスクの精度を一貫して向上させ、不必要な探索行動を大幅に削減し、計算トークンの使用を最適化したことが実証されました。特に注目すべき発見は、Mempがより強力なモデルから構築された手続き記憶をより弱いモデルに転送する能力であり、その結果、より小さなシステムのパフォーマンスが大幅に向上しました。これは、Mempがエージェントに多様なタスクにわたって効果的に学習、適応、汎化させる能力を強調しています。

エージェントがその環境と相互作用し、行動を実行し、ツールを利用し、複数のステップにわたってその行動を洗練させるとき、それは効果的にマルコフ決定プロセス内で動作します。各相互作用は状態、行動、フィードバックを生成し、タスクの成功に基づいて報酬も生み出す軌跡を形成します。しかし、効率的な記憶システムがなければ、未知の環境で新しいタスクに取り組むエージェントは、以前の同様の状況ですでに実行された探索行動を繰り返すことで、計算ステップとトークンを無駄にすることがよくあります。人間の学習された手順を想起し再利用する能力に触発され、Mempはエージェントに、この重要な手続き的知識を保存、検索、更新する専用の記憶モジュールを装備させます。これにより、エージェントは過去の経験を活用し、冗長な試行を劇的に減らし、複雑な多段階タスクにおける全体的な効率を向上させることができます。

TravelPlannerおよびALFWorldデータセットで実施された実験は、説得力のある証拠を提供しました。軌跡を、非常に詳細なステップとして、または抽象的なスクリプトとして保存することで、精度が明らかに向上し、探索時間が短縮されました。セマンティック類似性に基づいた検索戦略は、この記憶の有用性をさらに洗練させました。同時に、新しい情報の検証、フィードバックに基づく調整、結果に関する反省を含む動的な更新メカニズムは、エージェントがエラーを修正し、古い知識を破棄し、スキルを継続的に磨くことを可能にしました。結果は、手続き記憶がタスク完了率と運用効率を向上させるだけでなく、より堅牢なモデルから能力の低いモデルへの効果的な知識転送を促進し、より小さなシステムに大きなパフォーマンス向上をもたらすことを明確に示しています。興味深いことに、記憶検索をスケーリングすると一般的に結果が改善されましたが、過剰な記憶がエージェントの文脈理解を圧倒し、逆説的に有効性を低下させる可能性があるポイントがありました。これは、手続き記憶が人工エージェントをより適応性があり、効率的で、人間の学習プロセスに似たものにするための強力な道筋であることを強調しています。

本質的に、Mempはタスクにとらわれないフレームワークであり、手続き記憶をLLMベースのエージェントのコア最適化ターゲットに高めます。Mempは、記憶の構築、検索、動的更新のための戦略を体系的に設計することで、エージェントが過去の経験を抽出し、洗練し、再利用することを可能にし、TravelPlannerやALFWorldで見られるような長期間のタスクにおける効率と精度を向上させます。静的または手動で設計された記憶システムとは異なり、Mempは動的に進化し、古い知識を継続的に更新および破棄します。観察された結果は、安定したパフォーマンス向上、より効率的な学習、さらには記憶がより強力なモデルからより弱いモデルに移行された場合の転送可能な利点を一貫して示しています。今後、より豊富な検索方法と高度な自己評価メカニズムの統合は、複雑な現実世界のシナリオにおけるエージェントの適応性とパフォーマンスをさらに強化することを約束します。