Meta AI首席LeCun:大型语言模型过于简单,应聚焦真实世界AI
在快速发展的人工智能领域,公众的目光大多仍集中在大型语言模型(LLM)上。然而,Meta首席人工智能科学家扬·勒昆(Yann LeCun)正在倡导转变焦点,坚称先进人工智能的未来超越了LLM的现有能力。
作为深度学习的先驱,勒昆公开表达了他对LLM日益减少的兴趣,认为它们是“一种看待推理的简单化方式”。尽管他承认LLM通过增加数据和计算能力获得了渐进式改进,但他认为人工智能真正变革性的进步将从以下四个关键领域涌现:
理解物理世界:开发能够直观掌握真实世界物理和交互细微之处的机器。
持久记忆:创建具有长期、可访问记忆能力的人工智能系统。
推理:超越当前初级形式的推理,迈向更复杂、更直观的方法。
规划:使人工智能能够规划一系列行动以实现特定目标,这与人类的认知过程相仿。
勒昆认为,目前被LLM所吸引的技术社区,很可能在未来五年内将注意力转向这些“晦涩的学术论文”。
基于Token的系统的局限性
勒昆指出,当前LLM的一个根本局限性源于其基于Token的方法。Token通常代表有限的离散可能性集合(如单词或子词单元),非常适合语言。然而,物理世界是“高维和连续的”。
人类在生命早期就获得了“世界模型”,从而能够直观地理解因果关系——例如,从不同点推动物体会产生不同的结果。用旨在预测离散Token的系统来复制这种对物理的直观理解是极其困难的。尝试通过在像素级别预测视频等高维、连续数据来训练人工智能,已被证明效率低下,消耗大量资源来发明不可预测的细节。现实的许多方面在粒度层面上本质上是不可预测的,这使得像素级重建成为一种浪费的努力。
引入联合嵌入预测架构(JAPA)
勒昆认为,解决方案在于联合嵌入预测架构(JAPA)。与试图进行详细像素级重建的生成模型不同,JAPA专注于学习数据的“抽象表示”。
在JAPA中,输入(例如,视频片段或图像)由编码器处理以创建抽象表示。输入的转换版本也经过编码。系统随后在这个“表示空间”(或潜在空间)中进行预测,而不是在原始输入空间中。这类似于以更抽象、语义的方式“填空”。这种方法有助于克服“崩溃问题”,即系统可能会忽略输入并产生无信息表示。
对于能够进行推理和规划的代理系统,JAPA提供了一种强大的机制。基于JAPA的预测器可以观察世界的当前状态,并预测“给定假设行动的下一个状态”。这使得规划一系列行动以实现期望结果成为可能,这与人类的认知过程相仿。勒昆将其与当前“代理推理系统”进行对比,后者生成大量Token序列,然后选择最佳序列——他认为这种方法对于短序列之外的任何情况都“完全无望”,因为它呈指数级扩展。他认为,真正的推理发生在抽象的精神状态中,而不是通过“随意摆弄Token”。
一个实际例子是Meta的视频联合嵌入预测架构(VJA)项目。VJA通过短视频片段进行训练,可以从遮蔽版本预测完整视频的表示,展示了检测视频是否“物理上可能”的能力。通过测量预测误差,它可以标记“异常”事件,就像婴儿对物体反重力现象感到惊讶一样。
通往高级机器智能(AMI)之路
勒昆更喜欢“高级机器智能”(AMI)而非“通用人工智能”(AGI)这一术语,他承认人类智能的专业性。他估计,在三到五年内,可以在小规模上“很好地掌握”AMI,而人类级别的人工智能可能在十年内到来。然而,他警告不要过度乐观,驳斥了仅仅通过扩展LLM或生成数千个Token序列就能达到人类级别智能的说法是“无稽之谈”。
一个重要的瓶颈是数据。LLM是根据相当于数十万年阅读量的海量文本进行训练的。相比之下,一个四岁儿童仅在16,000小时内通过视觉处理了等量数据,这凸显了视觉学习的巨大效率。这种差异强调了AGI不能仅仅通过文本训练来实现。勒昆认为,解锁AMI的关键在于找到大规模训练JAPA架构的“良好配方”,类似于促成深度神经网络和Transformer的奠基性突破。
人工智能的当前影响和未来挑战
尽管关注未来的范式,勒昆仍强调人工智能已经产生了巨大的积极影响。在科学和医学领域,人工智能正在改变药物设计、蛋白质折叠和医学成像,缩短MRI扫描时间并进行肿瘤预筛查。在汽车领域,人工智能驱动的驾驶辅助和紧急制动系统显著减少了碰撞。人工智能主要作为一种“强大工具”,在各个领域增强人类的生产力和创造力。
然而,广泛部署面临“准确性和可靠性”方面的挑战,尤其是在错误可能至关重要的应用中,例如自动驾驶。勒昆指出,人工智能的失误通常不在于基本技术,而在于可靠的集成。然而,对于许多错误并非灾难性的应用(例如娱乐、教育),“大部分时间都正确”的人工智能已经非常有益。
关于人工智能的“阴暗面”,如深度伪造,勒昆表达了乐观。Meta的经验表明,尽管有LLM可用,但恶意生成内容的显著增加并未出现。他认为“应对滥用的对策就是更好的人工智能”——具有常识、推理能力和评估自身可靠性的系统。
开源和全球协作的不可或缺作用
勒昆哲学的一个核心原则是开源人工智能平台的绝对必要性。他强调“好的想法来自于许多人的互动和思想交流”,因为没有哪个单一实体垄断创新。Meta对开源的承诺,以PyTorch和LLaMA为例,促进了初创公司的蓬勃发展,并实现了全球协作。
开源人工智能对未来至关重要,因为它允许:
AI助手的多样性:少数几家公司无法提供未来AI将介导几乎所有数字交互所需的多样化AI助手。需要多样化的助手来理解不同的语言、文化和价值观体系。
分布式训练:没有任何单一实体会收集世界上所有的数据。未来的模型将是开放源代码的基础模型,以分布式方式进行训练,全球数据中心访问数据子集以训练“共识模型”。
专有数据上的微调:像LLaMA这样的开源模型允许公司下载并在自己的专有数据上进行微调,而无需上传数据,从而支持专业的垂直应用和初创公司业务模型。
硬件:推动下一场AI革命
通往AMI和复杂世界模型的旅程将需要不断增加的计算能力。虽然GPU取得了指数级进步,但在抽象空间中进行推理的计算开销意味着持续的硬件创新至关重要。
勒昆对神经拟态硬件、光学计算和量子计算在近期内用于通用AI任务仍持怀疑态度,理由是数字半导体行业的根深蒂固。然而,他看到了内存处理(PIM)或模拟/数字处理器和内存技术在特定“边缘计算”场景中的前景,例如智能眼镜中的低功耗视觉处理。这种方法模仿了生物系统,如视网膜,它在传感器处处理大量的视觉数据以在传输前对其进行压缩,这凸显了数据移动(而不仅仅是计算)通常消耗最多的能量。
最终,勒昆设想的未来是人工智能系统作为“强大工具”来增强人类能力,而不是取代人类。我们与未来人工智能的关系将是一种命令关系,人类将指挥一个“超智能虚拟人员的团队”。这种由开放研究和开源平台驱动的协作未来,将利用全球贡献来创建各种各样的人工智能助手,从而改善日常生活。