Memp:利用终身程序记忆提升LLM智能体效率
大语言模型(LLM)智能体已取得显著进展,在处理从网络研究、报告生成到数据分析和多步软件工作流等复杂任务方面展现出令人印象深刻的能力。尽管取得了这些进步,一个关键的限制依然存在:它们在程序记忆方面的不足。与人类本能地从过去经验中构建和重用例程不同,当前的LLM智能体通常拥有的程序知识是僵化的、手动硬编码的,或深埋于其模型权重中。这种固有的不灵活性使得它们异常脆弱;意外中断,如网络中断或用户界面变更,可能需要完全重新启动其操作。现有框架提供了结构抽象,但很大程度上未能解决记忆生命周期的优化问题,从而阻碍了智能体系统地构建、完善和重用所学的程序技能。
记忆是语言智能体功能的基础,使其能够在短期、情景和长期语境中回忆过去的交互。尽管当代系统采用向量嵌入、语义搜索和分层结构等技术进行信息存储和检索,但记忆的有效管理——特别是程序记忆——仍然是一个重大障碍。程序记忆对于智能体内化和自动化重复性任务至关重要,但其构建、更新和重用策略在很大程度上尚未得到充分探索。同样,尽管智能体通过强化学习、模仿或重放等方法从经验中学习,但它们经常遇到效率低下、泛化能力差以及容易遗忘先前学习信息的问题。
为了应对这些挑战,浙江大学和阿里巴巴集团的研究人员引入了Memp,这是一个创新的框架,旨在为智能体配备终身、适应性强的程序记忆。Memp从根本上将过去的运行轨迹转化为粒度化的、步骤级的指令以及更抽象的、更高层次的脚本。至关重要的是,它提供了记忆构建、检索和持续更新的系统策略。与固定知识的静态方法不同,Memp通过添加、验证、反思和丢弃过时信息的循环动态地完善其记忆,从而确保相关性和效率。在ALFWorld和TravelPlanner这两个不同环境中的全面测试表明,Memp持续提高了任务准确性,显著减少了不必要的探索性行动,并优化了计算令牌的使用。一个特别值得注意的发现是Memp能够将从更强大模型构建的程序记忆转移到较弱模型上,从而大幅提升了小型系统的性能。这强调了Memp使智能体能够在不同任务中有效学习、适应和泛化的能力。
当智能体与其环境交互,执行动作、利用工具并在多个步骤中完善其行为时,它实际上是在马尔可夫决策过程中运行。每次交互都会生成状态、动作和反馈,形成轨迹,并根据任务成功获得奖励。然而,如果没有高效的记忆系统,在陌生环境中处理新任务的智能体往往会浪费计算步骤和令牌,重复在早期类似情境中已执行的探索性行动。受人类回忆和重用已学程序的启发,Memp为智能体配备了一个专门的记忆模块,用于存储、检索和更新这种关键的程序知识。这使得智能体能够利用过去的经验,大幅减少冗余尝试,并提高复杂多步任务的整体效率。
在TravelPlanner和ALFWorld数据集上进行的实验提供了令人信服的证据。无论是作为高度详细的步骤还是作为抽象脚本存储轨迹,都显著提高了准确性并缩短了探索时间。基于语义相似性的检索策略进一步提升了这种记忆的效用。同时,动态更新机制——包括新信息的验证、基于反馈的调整以及对结果的反思——使智能体能够纠正错误、丢弃过时知识并持续磨练其技能。结果清楚地表明,程序记忆不仅提高了任务完成率和操作效率,而且促进了从更强大的模型到能力较弱模型的有效知识迁移,为小型系统带来了显著的性能提升。有趣的是,虽然扩大记忆检索通常会改善结果,但存在一个临界点,超过这个点,过度的记忆可能会压倒智能体的上下文理解,从而导致效果反而下降。这突出表明,程序记忆是使人工智能智能体更具适应性、更高效并更接近人类学习过程的强大途径。
本质上,Memp是一个与任务无关的框架,它将程序记忆提升为基于LLM的智能体的核心优化目标。通过系统地设计记忆构建、检索和动态更新策略,Memp使智能体能够提炼、完善和重用其过去的经验,从而在TravelPlanner和ALFWorld等长周期任务中提高效率和准确性。与静态或手动设计的记忆系统不同,Memp动态演进,持续更新和丢弃过时知识。观察到的结果持续显示出稳定的性能提升、更高效的学习,甚至在记忆从更强模型迁移到更弱模型时也具有可转移的益处。展望未来,集成更丰富的检索方法和高级自我评估机制有望进一步增强智能体在复杂现实世界场景中的适应性和性能。