AI推理计算:专用硬件的下一个前沿
尽管训练人工智能模型所需的巨大计算量常常占据新闻头条并吸引投资者,但一个更安静却同样深远的挑战正在浮现:AI推理的需求。这个阶段——训练好的AI模型实际投入使用——正在迅速发展,并可能很快将当今最先进的GPU推向极限。
d-Matrix创始人兼首席执行官Sid Sheth指出,AI领域正在发生重大转变。AI模型训练的世界历来是“单一的”,主要由GPU主导,尤其是来自一家知名公司的产品。然而,AI推理领域呈现出鲜明对比。它远非“一刀切”的方案,其特点是工作负载种类繁多,每种都要求独特的计算需求。有些用户优先考虑成本效益,有些寻求与模型的实时交互,而第三类用户可能只专注于最大化数据吞吐量。这种固有的多样性意味着没有单一的硬件架构或计算基础设施能够同时高效地满足所有这些不同的需求。Sheth预计推理将走向一个真正“异构”的未来,届时将部署专业的、同类最佳的硬件,以满足个体用户和应用程序的特定需求。
AI推理中最关键的技术障碍之一是确保存储数据的内存尽可能物理上靠近处理数据的计算单元。这种接近至关重要,因为AI工作负载,特别是涉及生成式AI的工作负载,需要频繁访问内存。在生成内容时,模型严重依赖缓存先前的数据。生成的每个新“token”——一个像单词或子单词一样的数据片段——都需要利用这些缓存信息来确定下一个最佳输出。这个问题在AI代理中会急剧加剧,使内存需求增加十倍甚至百倍。因此,最大限度地减少数据在内存和计算之间传输的距离变得至关重要,这直接影响推理操作的速度、效率和成本效益。
公司正积极创新以应对这一挑战。例如,d-Matrix的Corsair AI推理平台就体现了一种新颖的架构和内存与计算定位方法。该公司构建了专门的芯片组,然后将其共同封装到柔性结构中。这种设计为平台提供了关键的弹性和模块化,使其能够根据客户需求精确地扩展或缩减。在Corsair内部,内存和计算层直接堆叠在一起,类似于一叠煎饼。这种革命性设计大大缩短了数据传输所需的物理距离。正如Sheth所描述的,数据有效地从内存“倾泻而下”到其正下方的计算单元,层间增加的表面积促进了更高的数据传输量。
随着AI应用的不断普及和成熟,聚光灯正逐渐从模型训练的初始繁重工作转向以规模运行模型的持续、多样且同样苛刻的任务。AI基础设施的未来无疑将由这些不断演变的推理需求塑造,从而推动新一波的专用硬件创新。