AI算力竞赛:千亿资金涌入数据中心热潮
全球对人工智能,特别是对超级智能的追求,正在推动数据中心建设的空前繁荣。这些从外部看通常平平无奇的庞大设施,正成为计算前沿的新标志,容纳着OpenAI、谷歌和DeepSeek等行业领导者开发的大型语言模型所需的关键高级基础设施。这种强劲的需求正驱动主要科技公司乃至民族国家大幅增加支出,投入数十亿美元建设规模越来越大的数据中心集群。
这些设施的核心是被称为图形处理单元(GPU)的强大处理器阵列。与传统按顺序处理任务的中央处理单元(CPU)不同,GPU擅长并行处理,这使其非常适合训练复杂AI模型所需的大规模并发计算。许多AI数据中心容纳数万个此类GPU,而最新AI芯片的单个机架所需的电力相当于传统数据中心10到15个机架的总和。正如为OpenAI建设大型数据中心的初创公司Crusoe的首席执行官蔡斯·洛克米勒(Chase Lochmiller)所说:“数据中心就是计算机。”
尽管DeepSeek推出一种高效AI模型后,2025年初曾出现短暂的投资者担忧,但基础设施建设热潮反而愈演愈烈。微软、Alphabet、亚马逊和Meta合计计划在2025年将资本支出增加到3000多亿美元。IT咨询公司高德纳(Gartner)预计今年数据中心总支出将达到4750亿美元,比2024年增长42%。麦肯锡等一些预测机构甚至认为需求更大,预计到2030年,为满足全球AI需求,数据中心投资将达到5.2万亿美元。Meta创始人马克·扎克伯格最近宣布,该公司将“投入数千亿美元用于计算以构建超级智能”,其中包括建设规模足以覆盖曼哈顿大部分地区的数据中心集群。英伟达(Nvidia)首席执行官黄仁勋强调了这种基础设施的必要性,他表示:“我不知道有哪家公司、哪个行业或哪个国家认为智能是可有可无的。”
然而,建设这些下一代AI设施比以往的计算系统要复杂得多、成本高得多、能耗也高得多。Uptime Institute研究执行董事安迪·劳伦斯(Andy Lawrence)指出其中涉及的巨大风险:“突然开始建设那些功耗密度高得多、芯片成本高出10倍、需求尚未得到验证、并且会耗尽所有可用电网电力和合适房地产的数据中心——所有这些都是一项非凡的挑战和一场赌博。”
新AI芯片电力需求的急剧增加彻底改变了数据中心设计。英伟达最新的处理器产生如此多的热量,以至于传统空调已无法满足需求。施耐德电气创新与数据中心副总裁史蒂文·卡利尼(Steven Carlini)解释说:“一切都被颠覆了”,冷却和电力设备现在占据了设施70%的占地面积,而服务器所占比例较小。20年前一个“大型”数据中心可能需要20兆瓦的电力,而如今的AI设施设计功率达到1吉瓦甚至更高。这种快速演变是如此深刻,以至于Meta据报道在2023年拆除了德克萨斯州一个正在开发的数据中心,以便为更高功率的芯片重新设计,然后才重新开始建设。
对计算能力永无止境的需求也正在刺激房地产繁荣,因为超大规模云服务提供商(如亚马逊、微软和谷歌)正在开发庞大的数据中心集群。这些“AI工厂”通常是为一家公司甚至一个民族国家建造的,这与传统的共享服务器模式背道而驰。选址的关键因素包括廉价土地、税收优惠、海底电缆接入,以及最关键的——充足且负担得起的能源。弗吉尼亚州北部、亚特兰大、哥伦布、达拉斯和凤凰城等地因这些优势已成为主要枢纽。例如,Crusoe正在德克萨斯州阿比林为OpenAI建造八座总计1.2吉瓦的数据中心建筑,作为其雄心勃勃的1000亿美元“星门”(Stargate)项目的一部分,该项目将包括由甲骨文(Oracle)提供的约40万个英伟达GPU。Meta正在路易斯安那州里奇兰建设一个2吉瓦的设施,而埃隆·马斯克(Elon Musk)的xAI则计划在田纳西州孟菲斯多个地点建设1.2吉瓦的设施。亚马逊正在印第安纳州新卡莱尔为Anthropic开发一个2.2吉瓦的基地。
对AI算力的全球竞争已超越美国本土。牛津大学的一项研究发现,近95%的商用AI计算能力由美国和中国的科技集团运营。中国的推动已导致在新疆和内蒙古等偏远地区建设数据中心。在关系缓和后,英伟达将恢复对华部分AI芯片的供应,尽管美国对最强大半导体的出口管制依然存在。马来西亚的柔佛州(Johor Bahru)正成为中国开发商的AI枢纽。海湾国家也在大举投资,阿联酋宣布将为OpenAI和其他美国公司建设一个大型数据中心集群,作为“星门”项目的一部分,目标是高达5吉瓦的电力。沙特阿拉伯新成立的国有AI公司Humain计划建造拥有数十万个英伟达芯片的“AI工厂”。与此同时,欧盟计划调动2000亿欧元,旨在成为一个“AI大陆”,规划建设五个“AI超级工厂”。
这些设施不断升级的能耗是一个主要问题。国际能源署(IEA)预测,数据中心能源使用量将从2024年的415太瓦时攀升到2030年的945太瓦时以上,大致相当于日本目前的总用电量。这种激增正促使运营商利用任何可用的能源;例如,xAI在孟菲斯等待电网连接期间使用了燃气轮机。所有四家主要超大规模云服务提供商最近都获得了核电供应协议。巨大而持续的电力消耗,加上AI模型训练期间的需求高峰,给公用事业供应商带来了严峻挑战,存在电网不稳定和停电的风险。
水消耗是另一个关键问题。2023年,美国超大规模和托管数据中心直接消耗了550亿升水,而间接消耗(与能源使用相关)估计每年达到8000亿升,这相当于近200万个美国家庭的年用水量。科技巨头也承认这一点,微软报告称其2023年42%的用水来自“水资源紧张”地区,谷歌则有近30%来自存在枯竭风险的流域。亚利桑那州和德克萨斯州等干旱易发州的以及佐治亚州的这些数据中心开发项目,已引发当地对水资源短缺和市政水费上涨的担忧。
为了应对AI芯片产生的极端热量,先进的冷却方法至关重要。AI数据中心约五分之二的能源用于冷却。早期数据中心依赖工业空调,但现在芯片密度的增加需要更复杂的解决方案。运营商正在安装冷水管道来传递热量,通常使用大型冷却塔,通过蒸发消耗大量水(每塔每分钟约19000升)。更高效的闭环冷却器系统也正在被采用。最新的创新是“芯片直冷”技术,冷却剂直接流过发热组件。例如,葡萄牙的Start Campus计划为其即将建成的1.2吉瓦AI数据中心枢纽使用海水作为散热器,每天通过热交换器循环超过140万立方米的海水,然后再将其返回海洋。
尽管已经投入了数千亿美元,硅谷的领导者们丝毫没有放缓的迹象。英伟达预计,其两年后推出的下一代“Rubin Ultra”系统将在单个机架中塞入500多个GPU,功耗达到600千瓦,这将带来新的能源和冷却挑战。OpenAI的萨姆·奥特曼(Sam Altman)设想的设施将“远超”10吉瓦,需要“新技术和新建设”。这种雄心壮志的基础是AI的“规模化法则”——即更多数据和计算能力将无休止地产生更高智能的信念。这促使数据中心设计师不断创新,而这种不懈的建设也没有丝毫减弱的迹象。正如芯片设计公司Arm基础设施业务负责人穆罕默德·阿瓦德(Mohamed Awad)总结的那样:“在某个时候,它会放缓吗?它必须会。但我们近期看不到这种情况发生。”