英伟达新型 Blackwell GPU 赋能小型工作站,AI 性能显著提升
英伟达推出了两款基于 Blackwell 架构的新型紧凑型 GPU:RTX Pro 4000 小型工作站(SFF)版和 RTX Pro 2000。这两款 GPU 旨在以严格的 70 瓦功耗限制,为专业可视化和本地 AI 工作负载提供高性能。这两款显卡在加拿大不列颠哥伦比亚省温哥华举行的 Siggraph 大会上亮相,均采用半高、双槽散热器设计,使其适用于空间受限的工作站。
尽管物理外形相似,但这两款显卡针对不同的性能层级。RTX Pro 4000 SFF 拥有显著更强的处理能力,配备 8,960 个 CUDA 核心,是 RTX Pro 2000 的 4,352 个核心的两倍多。英伟达声称,RTX Pro 4000 SFF 比其前代产品实现了显著的性能飞跃,光线追踪能力提升约 1.7 倍,AI 性能提升 2.5 倍。该芯片配备 280 个张量核心(AI 专用处理器),可提供高达 770 teraFLOPS 的 FP4 性能。尽管这代表浮点运算性能提升了 2.51 倍,但需要注意的是,大部分增益来自于转向 FP4(4 位浮点)精度,而非纯粹的架构增强;当标准化为 FP8(8 位浮点)时,该芯片的速度提升接近 25%。
RTX Pro 4000 SFF 真正的亮点在于其内存带宽,这是本地 AI 推理的关键因素,特别是对于大型语言模型(LLM)而言。凭借 24GB GDDR7 显存提供 432GB/s 的带宽,预计该显卡在 LLM 中生成 tokens 的速度比英伟达之前的产品快约 54%。
RTX Pro 2000 尽管不如其同系列产品强大,但即便功耗仅为适度的 70W,仍有望为专业可视化任务带来显著的性能提升。英伟达表示,与 Ada Generation 前代产品相比,用户可以期待 3D 建模性能提升 1.6 倍,计算机辅助设计(CAD)性能提升 1.4 倍,渲染速度提升 1.6 倍。对于 AI 工作负载,RTX Pro 2000 尽管无法与更耗电的产品相提并论,但仍表现不俗,提供高达 545 teraFLOPS 的稀疏 FP4 计算能力和 280GB/s 的内存带宽,由 16GB GDDR7 显存提供支持。
这些新型紧凑型 GPU 补充了英伟达现有的 Blackwell 工作站产品线,其中包括在 3 月 GTC 大会上发布的 96GB RTX Pro 6000。此外,在 Siggraph 大会上,英伟达还展示了一个 2U 服务器平台,该平台可容纳一对 600W RTX Pro 6000 服务器版显卡,每张卡可提供高达 4 petaFLOPS 的稀疏 FP4 性能。RTX Pro 4000 SFF 和 RTX Pro 2000 将于今年晚些时候通过分销商 PNY 和 TD SYNNEX 上市,并将集成到 BOXX、戴尔、惠普和联想等制造商的 OEM 系统中。搭载更强大 RTX Pro 6000 服务器显卡的服务器系统已可从思科、戴尔、HPE、联想和 Supermicro 等公司处获取。