谷歌AI TTD-DR：受人类启发，扩散模型驱动深度研究新突破

大型语言模型（LLM）的最新进展使得深度研究（DR）智能体在学术界和工业界迅速普及。然而，许多AI智能体缺乏人类研究中至关重要的结构化、迭代性思考和写作过程。它们常常未能整合起草、搜索和利用反馈等关键步骤，而这些对人类研究人员来说至关重要。当前的DR智能体倾向于将各种算法和工具进行编译，但缺乏一个内聚的框架，这凸显了对能够匹配甚至超越人类研究能力的专用系统的巨大需求。现有方法中缺乏受人类启发的认知过程，导致AI智能体在处理复杂研究任务时与人类同行相比存在显著差距。

现有AI驱动的研究方法已经探索了多种途径。这包括迭代优化算法、辩论机制、用于假设排名的锦标赛式系统，以及生成研究提案的自我批评系统。多智能体系统利用规划器、协调器、研究员和报告员等专业组件来生成详细响应。一些框架甚至允许人类协作者模式以整合反馈。此外，智能体调优方法侧重于通过多任务学习目标、对单个组件进行监督微调以及通过强化学习来增强搜索和浏览能力。虽然LLM扩散模型试图通过生成完整的“嘈杂”草稿并迭代完善它们来超越线性、自回归采样，但一个全面的、受人类启发的框架仍然难以实现。

为解决这些局限性，谷歌的研究人员引入了测试时间扩散深度研究员（TTD-DR）。这个新颖的框架从人类研究的迭代性质中汲取灵感，其涉及信息搜索、思考和完善的重复循环。TTD-DR将研究报告的生成概念化为一种“扩散过程”。它从一个初始草稿开始，该草稿作为不断演变的大纲和基础，动态地指导研究方向。该草稿通过一个“去噪”过程进行迭代完善，该过程通过检索机制在每个步骤中不断整合外部信息。这种以草稿为中心的设计旨在使报告撰写更及时、更连贯，同时显著减少迭代搜索过程中的信息损失。TTD-DR在需要密集搜索和复杂多跳推理的基准测试中取得了最先进的成果。

TTD-DR框架旨在克服现有DR智能体通常采用线性或纯粹并行化过程的局限性。其核心架构包含三个主要阶段：研究计划生成、迭代搜索与合成以及最终报告生成。每个阶段都集成了专业的LLM智能体、独特的工作流程和智能体状态。一个关键创新是智能体对自演化算法的利用。受AI领域最新自我改进进展的启发，这些算法以并行、顺序和循环工作流的方式实现，并可应用于所有三个阶段。这使得智能体能够持续提升其性能，并发现和保留高质量的上下文信息，从而提高整体输出质量。

在与OpenAI深度研究的并排比较中，TTD-DR表现出卓越的性能。在长篇研究报告生成任务中，TTD-DR的胜率分别为69.1%和74.5%。在需要短篇真实答案的三个研究数据集中，它也分别以4.8%、7.7%和1.7%的优势超越了OpenAI深度研究。该框架在自动化帮助性和全面性得分方面表现出色，尤其是在LongForm Research数据集上。此外，仅自演化算法在LongForm Research上对阵OpenAI深度研究的胜率就达到了60.9%，在DeepConsult上达到了59.8%，令人印象深刻。TTD-DR在HLE数据集上的正确性得分也提高了1.5%和2.8%，尽管其在GAIA上的表现仍比OpenAI DR低4.4%。总体而言，将扩散与检索相结合，使得TTD-DR在几乎所有评估的基准测试中都取得了相对于OpenAI深度研究的显著优势。

总之，谷歌的TTD-DR代表了AI驱动研究的重大进步。通过采用受人类启发的认知设计来解决根本性局限，该框架有效地将研究报告生成建模为一个动态扩散过程。其使用可更新的草稿骨架，结合应用于每个工作流组件的自演化算法，确保在整个研究过程中生成高质量的上下文。TTD-DR在各种基准测试中展现的最先进性能，突显了其提升AI研究智能体能力的潜力，在全面的长篇报告和简洁的多跳推理任务中均提供卓越结果。

谷歌AI TTD-DR：受人类启发，扩散模型驱动深度研究新突破

相关文章

MLE-STAR：谷歌AI智能体，极简输入自动化构建ML管道

字节跳动Seed-Prover：自动化数学证明领域的SOTA突破

谷歌Gemini 2.5 Deep Think AI模型斩获国际数学奥赛金牌