TPC25:迈向科学级AI之路——百亿亿次计算、量子AI与未来展望

Aiwire

TPC25大会近期汇聚了顶尖研究人员,他们怀揣着一个共同的目标:将前沿规模的人工智能转化为科学发现的实用工具。为期一周的讨论强调了这项宏伟事业所蕴含的巨大前景和面临的显著障碍。

超越原始速度:打造科学就绪型AI

日本理化学研究所(RIKEN)计算科学中心主任松冈聪强调,当今的商业基础模型对于科学应用而言仅仅是一个起点。松冈代表理化所的科学AI团队发言,详细阐述了在数据处理、模型设计和工作流编排方面存在的关键差距,这些差距必须得到解决,大型语言和学习模型才能可靠地服务于科学研究。

理化所正在积极构建支持这一愿景的基础设施。尽管其“富岳”超级计算机仍以6万个CPU节点位居全球领先地位,但该中心正在通过一个新的GPU集群扩展其能力,该集群将配备约1500个英伟达Blackwell加速器以及数百个额外的GPU和TPU。理化所还运行着三个量子系统,并计划在2029年前建成一个有望实现泽塔级计算(每秒10^21次操作)的未来系统。

松冈强调,仅仅依靠原始计算速度是不够的。科学AI模型必须能够内在理解复杂的科学数据和工作流。与通用商业模型不同,物理、化学和生物学等领域的科学应用需要专门的功能。科学数据通常结合了文本、方程式、图像和传感器流,并且常常达到TB级别。当前的AI系统在处理领域特定符号、单位、超长序列和超高分辨率科学图像方面存在困难。为了克服这些问题,松冈提倡使用自定义令牌词汇、稀疏注意力机制和物理感知解码器,这些解码器能够处理远超典型限制的上下文窗口。

理化所正在探索提高模型效率和数据理解的实用方法,包括先进的数据压缩技术,如用于高分辨率图像的四叉树平铺和空间填充曲线。这些方法在不牺牲精度的情况下提供了显著的计算节省,但需要新的编译器和内存支持。对于多模态数据,该团队正在开发混合算子,将神经网络与传统的偏微分方程求解器相结合。松冈还强调了从单一的巨型模型转向更多样化的任务调整模型谱的转变,包括专家混合架构和微调的领域模型,并强调在推理过程中进行推理以降低成本并增强鲁棒性。

通过生成式量子AI解锁发现

Quantinuum公司AI负责人史蒂夫·克拉克探讨了量子计算与AI融合的变革潜力。他概述了Quantinuum公司“生成式量子AI”的战略,该战略侧重于三种协同方法。

首先,AI被用于优化量子计算本身。机器学习技术,如深度强化学习,被应用于量子电路编译、减少昂贵的量子门数量以及改进实际量子硬件上的最佳控制和纠错等挑战。

其次,克拉克的团队正在研究量子系统如何为全新形式的AI提供动力。这包括重新设计神经网络,使其在量子硬件上原生运行,利用叠加等量子特性以根本不同的方式处理信息,从而创建没有直接经典模拟的模型。

第三,该战略涉及利用量子计算机生成的数据来训练AI模型。这使得AI能够学习经典系统无法产生的模式。一个例子是生成式量子本征求解器,其中一个Transformer模型迭代地提出量子电路以找到分子的基态,这种方法适用于化学、材料科学和优化。

AI在HPC中逐渐普及,但挑战依然存在

Hyperion Research首席执行官厄尔·C·约瑟夫展示了调查结果,强调了AI在高性能计算(HPC)环境中迅速整合的趋势。AI在HPC中的应用已从2020年约三分之一的站点激增到2024年的90%以上,从实验阶段进入主流应用,用于政府、学术界和工业界的大规模数据分析和模拟增强等任务。

这种增长与云计算的普及密切相关,因为组织转向云服务以减轻尖端硬件,特别是GPU的高成本和快速淘汰问题。云提供了对最新一代硬件的访问以及更大的灵活性,减少了对长期本地投资的需求。

尽管如此,重大障碍依然存在。最常被提及的挑战是训练数据的质量,这已导致许多AI项目停滞不前。约瑟夫以梅奥诊所为例,该机构通过专门使用其自身经过验证的数据来训练更小、高质量的语言模型,从而降低了这种风险。其他持续存在的问题包括内部AI专业知识短缺、训练数据规模不足以及将AI整合到现有HPC环境中的固有复杂性。约瑟夫预测,这种复杂性将推动领域特定AI软件和咨询服务新市场的增长。Hyperion的研究表明,尽管成本上升,97%的受访组织计划扩大其AI使用范围,这凸显了随着AI基础设施变得更加昂贵,需要大幅增加预算。

通过本地解决方案降低AI风险

理化所超级计算性能研究团队负责人延斯·多姆克就科学AI部署热潮中常被忽视的风险缓解方面发出了严厉警告。他概述了五个关键风险因素:人为错误、AI软件漏洞、供应链弱点、固有模型风险以及法律问题和盗窃等外部威胁。

多姆克列举了现实世界中的事件,包括公司使用基于云的AI服务导致机密数据泄露以及主要AI提供商遭受安全漏洞的案例。他还强调,快速开发的AI软件通常缺乏强大的安全性,并引用了基本安全协议被忽视的例子。现代AI工作流的复杂性(可能涉及数十个软件包)进一步扩大了攻击面。

为应对这些普遍存在的风险,理化所正在开发自己的本地AI管理能力,将其设想为商业云AI产品的安全、私有替代方案。这种内部解决方案旨在复制外部服务的功能,同时消除数据泄露、黑客攻击和数据外泄的风险。

理化所的基础设施将建立在开源组件之上,并具有多层安全隔离区。半开放层将在安全防火墙后提供广泛的可用性,类似于商业服务,但在受控环境中。更高安全性的层将保留用于高度机密的操作,例如医疗或敏感的内部研究。核心原则是“不信任任何东西”,所有模型和服务都容器化、隔离在私有网络上,并通过安全反向代理访问。这种方法使理化所能够完全控制其数据和模型,从而轻松集成开源模型和自定义微调模型,而无需外部限制。

未来之路

在TPC25大会上分享的各种观点中,一个共同的信息浮出水面:仅仅依靠原始计算规模不足以实现科学AI的全部潜力。未来的道路需要领域调整模型、无缝的经典-量子混合工作流、严格的数据质量标准以及强大而主动的风险控制。未来一年对于将这些见解转化为共享工具和社区标准至关重要。如果TPC25所展现的势头得以延续,科学界将更接近于在不损害信任的情况下加速发现的AI系统。