Meta的“椰子”:潜藏推理如何提升LLM能力

Towardsdatascience

在迈向更像人类的人工智能的重大一步中,Meta的研究人员公布了“椰子”(Coconut),一个旨在彻底改变大型语言模型(LLM)处理和解决复杂问题方式的新颖框架。官方名称为“连续思维链”(Chain of Continuous Thought),“椰子”将LLM从明确的基于语言的推理束缚中解放出来,使其能够在连续的非语言潜在空间中“思考”。

传统上,LLM使用“思维链”(Chain-of-Thought, CoT)推理来处理复杂的任务,即它们以自然语言token的形式阐明问题解决过程的每一步。尽管有效,但这种方法往往效率低下。生成的大部分语言都致力于维持语言连贯性,而非推进核心推理,这类似于人类需要口头表达每一个转瞬即逝的想法。这种冗余不仅增加了计算开销,也给LLM在处理需要深入规划或回溯的步骤时带来了挑战。“椰子”的灵感来源于对人类认知在不口头表达每个逻辑跳跃的情况下频繁处理复杂问题的观察,这表明语言并非总是纯粹推理的最佳媒介。

“椰子”从根本上重新定义了这一过程。它不再将模型的内部表示转换为词语token用于下一步推理,而是直接将LLM的“最后隐藏状态”——一个被称为“连续思维”的丰富高维向量——反馈给自己作为后续输入。这使得模型能够在“潜在模式”(一种非语言思维状态)下运行,仅在需要人类可读输出时才切换到“语言模式”。特殊的标记界定了这些内部推理段落。“椰子”的训练涉及一个多阶段课程,逐步教导模型在中间步骤中依赖这些潜在状态而非明确的语言。

这种范式转变的优势引人注目。通过在连续潜在空间中推理,“椰子”显著提高了效率,减少了推理过程中生成的token数量,同时不牺牲准确性。更值得注意的是,这种潜在方法促进了高级推理模式的出现。与通常只承诺单一确定性路径的CoT不同,“椰子”的连续思维可以同时编码多个潜在的下一步,从而实现一种“广度优先搜索”。这种灵活性对于需要广泛规划或回溯探索替代解决方案的任务尤其有利。例如,“椰子”在ProsQA数据集上取得了惊人的96.6%的准确率,这是一个旨在测试规划和回溯能力的基准,显著优于传统CoT的76.7%。此外,这些潜在思维的连续性使其完全可微分,允许通过梯度下降进行端到端优化。这种连续思维的“链式”连接也为该框架扩展和处理日益复杂的问题提供了途径。

尽管“连续思维链”代表了LLM开发的一个有前景的新领域,但挑战依然存在。例如,这些潜在思维的可解释性是一个持续的研究领域。此外,作为一种根本不同的方法,与成熟的CoT方法相比,“椰子”需要更多的时间和专门的研究才能成熟为一种广泛采用的技术。缺乏现成的预训练模型以及后期训练中观察到的不稳定性也突显了未来发展的领域。尽管存在这些初步挑战,Meta研究人员于2024年12月发布的论文奠定了坚实的基础,展示了潜在推理将LLM从单纯的语言生成提升到真正认知能力的巨大潜力。