谷歌AI TTD-DR:受人类启发,扩散模型驱动深度研究新突破
大型语言模型(LLM)的最新进展使得深度研究(DR)智能体在学术界和工业界迅速普及。然而,许多AI智能体缺乏人类研究中至关重要的结构化、迭代性思考和写作过程。它们常常未能整合起草、搜索和利用反馈等关键步骤,而这些对人类研究人员来说至关重要。当前的DR智能体倾向于将各种算法和工具进行编译,但缺乏一个内聚的框架,这凸显了对能够匹配甚至超越人类研究能力的专用系统的巨大需求。现有方法中缺乏受人类启发的认知过程,导致AI智能体在处理复杂研究任务时与人类同行相比存在显著差距。
现有AI驱动的研究方法已经探索了多种途径。这包括迭代优化算法、辩论机制、用于假设排名的锦标赛式系统,以及生成研究提案的自我批评系统。多智能体系统利用规划器、协调器、研究员和报告员等专业组件来生成详细响应。一些框架甚至允许人类协作者模式以整合反馈。此外,智能体调优方法侧重于通过多任务学习目标、对单个组件进行监督微调以及通过强化学习来增强搜索和浏览能力。虽然LLM扩散模型试图通过生成完整的“嘈杂”草稿并迭代完善它们来超越线性、自回归采样,但一个全面的、受人类启发的框架仍然难以实现。
为解决这些局限性,谷歌的研究人员引入了测试时间扩散深度研究员(TTD-DR)。这个新颖的框架从人类研究的迭代性质中汲取灵感,其涉及信息搜索、思考和完善的重复循环。TTD-DR将研究报告的生成概念化为一种“扩散过程”。它从一个初始草稿开始,该草稿作为不断演变的大纲和基础,动态地指导研究方向。该草稿通过一个“去噪”过程进行迭代完善,该过程通过检索机制在每个步骤中不断整合外部信息。这种以草稿为中心的设计旨在使报告撰写更及时、更连贯,同时显著减少迭代搜索过程中的信息损失。TTD-DR在需要密集搜索和复杂多跳推理的基准测试中取得了最先进的成果。
TTD-DR框架旨在克服现有DR智能体通常采用线性或纯粹并行化过程的局限性。其核心架构包含三个主要阶段:研究计划生成、迭代搜索与合成以及最终报告生成。每个阶段都集成了专业的LLM智能体、独特的工作流程和智能体状态。一个关键创新是智能体对自演化算法的利用。受AI领域最新自我改进进展的启发,这些算法以并行、顺序和循环工作流的方式实现,并可应用于所有三个阶段。这使得智能体能够持续提升其性能,并发现和保留高质量的上下文信息,从而提高整体输出质量。
在与OpenAI深度研究的并排比较中,TTD-DR表现出卓越的性能。在长篇研究报告生成任务中,TTD-DR的胜率分别为69.1%和74.5%。在需要短篇真实答案的三个研究数据集中,它也分别以4.8%、7.7%和1.7%的优势超越了OpenAI深度研究。该框架在自动化帮助性和全面性得分方面表现出色,尤其是在LongForm Research数据集上。此外,仅自演化算法在LongForm Research上对阵OpenAI深度研究的胜率就达到了60.9%,在DeepConsult上达到了59.8%,令人印象深刻。TTD-DR在HLE数据集上的正确性得分也提高了1.5%和2.8%,尽管其在GAIA上的表现仍比OpenAI DR低4.4%。总体而言,将扩散与检索相结合,使得TTD-DR在几乎所有评估的基准测试中都取得了相对于OpenAI深度研究的显著优势。
总之,谷歌的TTD-DR代表了AI驱动研究的重大进步。通过采用受人类启发的认知设计来解决根本性局限,该框架有效地将研究报告生成建模为一个动态扩散过程。其使用可更新的草稿骨架,结合应用于每个工作流组件的自演化算法,确保在整个研究过程中生成高质量的上下文。TTD-DR在各种基准测试中展现的最先进性能,突显了其提升AI研究智能体能力的潜力,在全面的长篇报告和简洁的多跳推理任务中均提供卓越结果。