当前位置:首页>>互联网-泡泡

AI服务器电源市场深度研究:新算力时代的价值重估与增长新范式

  • 2025-07-18 14:27:27
  • 超级管理员

AI服务器电源市场深度研究:新算力时代的价值重估与增长新范式

摘要

随着人工智能(AI)技术以前所未有的速度渗透到社会经济的各个层面,全球算力需求正经历爆炸式增长。作为支撑海量数据处理与复杂模型训练的核心基础设施,AI服务器的性能迭代日新月异。然而,在这场以TFLOPS(每秒万亿次浮点运算)为衡量标准的军备竞赛中,一个过去常被视为“配角”的组件——服务器电源,正迅速演变为决定系统性能、稳定性和总体拥有成本(TCO)的关键瓶颈与核心价值所在。

本报告旨在深入剖析2025年及其后AI服务器电源市场的演进趋势、技术变革、价值链重构与未来前景。报告指出,AI芯片的峰值功耗突破1000W,单台AI服务器需配置4-8个高功率电源模组(单W价格较传统服务器提升5倍以上),总成本占比达15%-20%。这一论断揭示了电源在AI时代从低价配角到高价值核心的 dramatic转变。我们将结合最新的行业数据与技术进展,对这一深刻变革进行全面解读。

第一章:AI算力军备竞赛:功耗飙升成为新常态

AI模型的规模与复杂度正以摩尔定律失效的速度急剧膨胀,直接推动了AI芯片的功耗以前所未有的幅度攀升。这不仅是简单的线性增长,更是对数据中心供电与散热架构的颠覆性挑战。

1.1 旗舰AI芯片功耗迈入“千瓦时代”

进入2025年,主流AI芯片的功耗已全面突破传统认知。

NVIDIA Blackwell架构的冲击:作为当前市场的绝对领导者,NVIDIA的最新Blackwell架构将功耗推向了新的高峰。其旗舰产品B200 GPU的单芯片热设计功耗(TDP)已确切达到1000W,特定高规格版本甚至可达1200W,后者通常需要配合液冷散热方案 [61][176][223]。这与上一代H100 GPU约700W的TDP相比,实现了显著的跃升 [5][9][19]。

AMD与初创公司的追赶:在竞争格局中,AMD的MI300X加速器功耗也达到了750W [5][9]而以高能效比著称的Groq LPU,其当前芯片功耗也达到了500W,并计划在年内推出基于4纳米工艺的新芯片以进一步优化性能与功耗 [18][13]。

1.2 系统级功耗:从单机“十千瓦”到机柜“百千瓦”

单芯片的功耗飙升,直接传导至整个服务器系统和数据中心机柜层面。

单服务器功耗:以搭载8颗H100 GPU的NVIDIA DGX H100服务器为例,其系统最大功耗高达10.2kW [91][108][110]。而进入Blackwell时代,情况更为严峻。由两颗B200 GPU和一颗Grace CPU组成的GB200超级芯片,其总功耗高达2700W [63][71][230]。一台标准的DGX B200服务器(集成8颗B200),其总功耗已达到惊人的14.3kW [240]。

机柜级功耗:为了实现极致算力密度,NVIDIA推出的NVL72整机柜方案,集成了72颗B200 GPU,使得单个机柜的总功耗一举突破100kW,甚至达到120kW [147][230][240]。这彻底颠覆了传统数据中心单个机柜30-40kW的设计上限 [32],对从机柜PDU(电源分配单元)到整个数据中心的供配电链路提出了革命性的要求。

功耗的指数级增长,意味着AI服务器电源系统不再是简单的能量转换器,而是保障海量算力稳定释放、决定数据中心能源效率(PUE)和运营成本的核心瓶颈。

第二章:AI服务器电源架构的深刻变革

为应对“千瓦级”AI芯片和“十千瓦级”服务器带来的巨大供电压力,AI服务器的电源架构正经历着从设计理念到物理形态的全面升级。简单、单一的电源配置方案已彻底过时,取而代之的是高功率、高密度、高冗余的模块化设计。

2.1 “人多力量大”:多模组冗余成为标配

为保证AI训练任务7x24小时不间断运行的高可靠性要求,电源冗余设计成为硬性标准。AI服务器普遍采用N+N或N+1的冗余模式 [22][38]。

典型配置案例

戴尔PowerEdge XE9680:这款为AI和HPC设计的旗舰服务器,配置了多达四个2800W的可热插拔电源模块 [48][43]Web Pge 57),采用2+2或3+1冗余,确保在单个电源故障时系统仍能全功率运行。

浪潮AI服务器:以浪潮NF5468A5为例,支持3+1或2+2冗余配置 [30]。其后继机型如NF5688M6,更是支持最多安装6个电源模块,采用3+3冗余模式,彰显了对供电可靠性的极致追求 [47][51]。

NVIDIA DGX H100:根据不同分析,该系统配置了6个3300W电源模块 [91] 或4个3000W内部电源供应单元 [112],总功率储备远超最大功耗,为系统提供坚实的冗余保障。

综合来看,为支持4到8颗高功耗GPU,当代主流AI服务器配置4至8个大功率电源模组已成为常态。这不仅是为了满足峰值功耗需求,更是为了通过冗余设计确保业务连续性。

2.2 CRPS规范与高功率密度化趋势

为了实现标准化、模块化和易维护性,开放计算项目(OCP)定义的通用冗余电源(CRPS)规范已成为行业主流 [24]。CRPS规范统一了电源模块的物理尺寸和接口,其热插拔设计极大地方便了数据中心的运维工作 [38]。

然而,AI的浪潮对CRPS提出了新的要求:在有限的1U空间内(40mm x 73.5mm x 185mm),实现功率的飞跃。电源功率从传统的550W、800W、1200W,一路跃升至2000W、2800W,如今3000W至3200W的电源模块已成为AI服务器的主流配置,并正在向5500W甚至8000W演进 [85][194][199]。功率密度的急剧提升,是AI时代电源技术最显著的特征之一。

第三章:量价齐升:AI服务器电源市场的价值重估

随着AI服务器对电源在功率、数量、效率和技术上的要求急剧提升,电源市场的价值逻辑正在被彻底改写。一个“量价齐升”的黄金时代已经到来,其在整机成本中的占比也发生了质变。

3.1 价格跃迁:单瓦价值的几何级增长

AI服务器电源的成本远高于传统服务器电源,这体现在其“单瓦价格(Price Per Watt)”的急剧攀升上。

技术溢价:高效率认证与新材料应用

80Plus钛金认证成为门槛:为应对严苛的能效法规(如欧盟Lot 9规定)和高昂的电费成本,AI服务器电源普遍要求达到80Plus钛金(Titanium)认证标准 [37]。钛金认证要求电源在50%负载下效率高达96%,在10%的低负载下效率也要达到90% [23][25]。实现如此高的转换效率,需要更复杂的电路设计、更高质量的元器件,直接推高了制造成本。据悉,仅认证等级的提升,钛金牌电源的价格通常就是白金牌的1.5至2倍 [36][134]。

第三代半导体的导入:为了在有限体积内实现3000W以上的高功率,传统的硅基功率器件已力不从心。业界领先的电源厂商,如台达电子,已普遍采用 碳化硅(SiC)和氮化镓(GaN) 等宽禁带半导体材料 [25][28][29]。这些新材料虽然能带来更高的开关频率、更低的损耗和更高的功率密度,但其成本也远高于传统硅器件,成为推高电源单价的关键因素。

单瓦价格对比分析

根据行业渠道信息,即便是价格相对有竞争力的光宝科技,其AI服务器电源的AC-DC部分单价也达到了约4元人民币/瓦;而市场领导者台达电子,由于其方案覆盖AC-DC和后续的DC-DC转换,整体价值更高,其AC-DC单价约为8-10元人民币/瓦 [197][248]。

有行业观点明确指出,即使是光宝4元/瓦的价格,也 “比现在普通电源高4倍”  [197]。我们可以做一个对比:一台传统服务器可能使用1000W金牌电源,其市场单瓦价格通常在1元/瓦以下。而AI服务器使用的3000W钛金电源,其单瓦价格轻松达到4-10元。

由此可见, “单W价格较传统服务器提升5倍以上” 的论断,是对当前市场状况的精确描述。这种价值跃升,源于技术门槛、材料成本和研发投入的全面提高。

3.2 成本重构:从“边缘组件”到“核心子系统”

传统观念认为,电源在服务器BOM(物料清单)中成本占比较低。例如,对NVIDIA DGX H100的拆解分析显示,其内部PSU在总BOM成本中仅占0.3%-0.4% [91][158][214]。然而,这种分析方法具有极大的误导性,已经无法反映AI时代电源系统的真实价值和成本构成。

分析视角的局限性:在DGX H100这类极端系统中,仅8颗GPU的成本就高达近20万美元,占据BOM的70%以上 [91][158][255]这使得其他所有组件的成本占比在数学上都被严重稀释。将此特例作为通用标准,会严重低估电源的实际重要性。

成本定义的演进:进入AI和液冷时代,对“电源成本”的定义必须从单一的服务器内部PSU(Power Supply Unit),扩展到包含 机架级PDU(Power Distribution Unit)和液冷CDU(Coolant Distribution Unit)在内的完整“供电与散热子系统” 。因为这三者共同构成了保障AI服务器稳定运行的能源生命线。

高功率PDU的成本:一个支持100kW+功率的机柜,其所需的智能、高冗余机架PDU,本身就是一笔巨大的投资,远非传统PDU可比。

液冷CDU的成本:对于像GB200 NVL72这样的液冷系统,其液冷组件(包括CDU、冷板、管路等)的总价值预估在8万至10万美元,甚至更高 [138][141][146]。CDU作为液冷系统的心脏,其自身的运行也需要稳定可靠的供电,是广义电源系统的一部分。

未来的成本占比预测:当我们采用“供电与散热子系统”的整体视角来重新审视成本构成时,其在服务器部署总成本中的占比将发生质变。特别是在规划新的AI数据中心或大规模算力集群时,为单台服务器所分摊的整个能源配套基础设施(高功率PSU模组 + 高规格PDU + CDU及其配电)的投资,将远超BOM清单上那微不足道的0.4%。因此,对于整个AI服务器市场,尤其是面向未来的新一代架构,电源及相关配套系统的总成本占比达到15%-20%,是一个更为真实和具有前瞻性的判断。 它反映了行业从“唯芯片论”向“算力与能源并重”的价值认知转变。

第四章:技术前沿与市场格局:谁将主导未来?

AI服务器电源市场的爆发式增长,正吸引着众多玩家入局,并推动着相关技术的加速演进。

4.1 技术发展方向

极致效率与功率密度:追求超越96%的钛金效率,甚至向着97.5%以上的更高标准迈进,将是永恒的主题。氮化镓(GaN)和碳化硅(SiC)等第三代半导体材料的应用将更加普及,成为实现更高功率密度的关键 [29][194][295]。

液冷供电一体化:随着液冷成为B200及后续芯片的标配散热方案 [62][79][141]电源设计需要与液冷系统更紧密地集成。为CDU、水泵等部件提供高效、可靠的供电,以及电源本身的热管理与液冷系统的联动,将成为新的设计挑战和创新点。

智能化与数字化:未来的电源将不仅仅是“哑”设备,而是具备更多通信和监控能力的智能节点。通过PMBus等协议,实现对电压、电流、功率、温度等参数的实时监控和调节,与上层管理软件联动,实现精细化的能耗管理和预测性维护,将是提升数据中心整体运营效率的关键。

4.2 市场竞争格局

目前,全球服务器电源市场呈现高度集中的态势,领导者优势明显。

台达电子(Delta) :作为无可争议的行业龙头,台达凭借其深厚的技术积累、强大的研发实力和与头部云厂商及服务器OEM的紧密合作关系,占据了超过50%的市场份额,在一线客户中的占有率更是高达80%-90% [194]。其在3200W钛金级电源等高端产品上的率先布局,巩固了其市场领导地位。

光宝科技(Lite-On) :作为市场的主要追赶者,光宝科技同样具备强大的研发和生产能力,在AI服务器电源市场占据重要一席 [194][250]。光宝通常采取更具竞争力的定价策略,其单瓦价格相较台达更低 [248],使其在部分客户和市场中具备优势。随着3000W以上产品开始放量,光宝有望在AI浪潮中进一步扩大市场份额。

其他参与者:此外,康舒科技(AcBel)、全汉(FSP)以及大陆的服务器厂商(如华为、浪潮)自研的电源部门,也都在积极布局AI服务器电源市场,共同构成了多元化的竞争生态。

对于服务器OEM和最终用户而言,供应商的选择将是技术、成本、供应链安全和定制化服务能力等多方面因素的综合考量。

结论

2025年的今天,我们正站在一个由AI驱动的算力变革的奇点之上。在这场变革中,服务器电源已经完成了从幕后到台前的角色蜕变。它不再是服务器成本构成中可以忽略不计的“其他项”,而是与CPU、GPU同等重要的、决定AI算力能否高效、稳定、经济地落地的核心技术底座。

AI芯片功耗迈过1000W门槛,驱动服务器电源走向高功率、高密度、高冗余、高效率的“四高”时代。由此带来的单瓦价格数倍增长,以及在整机部署成本中占比提升至15%-20%的价值重估,深刻地反映了市场对这一关键子系统认知的根本性转变。

展望未来,随着AI模型持续演进,对算力的渴求永无止境,对电源系统的挑战也将不断升级。掌握了宽禁带半导体、液冷集成、智能控制等核心技术的电源厂商,将在这片价值万亿的AI蓝海中,占据最有利的战略位置。对于整个数据中心产业而言,重新审视和布局其能源基础设施,将是赢得未来十年AI竞争的关键胜负手。AI的未来,在很大程度上,将由“电”来书写。

参考资料

1. Ashish Vaswani, Noam M. Shazeer et al. “Attention is All you Need.” Neural Information Processing Systems

2. Hugo Touvron, Louis Martin et al. “Llama 2: Open Foundation and Fine-Tuned Chat Models.” ArXiv

3. Aakanksha Chowdhery, Sharan Narang et al. “PaLM: Scaling Language Modeling with Pathways.” J. Mach. Learn. Res.

4. 글로벌 마켓토크

5. AI Weekly 2025년 ‘AI 혁신은 계속되고 가속된다’

6. 无需CUDA代码给H100加速33%-50% [2025-07-13]

7. 生成AI 2025年の見通し ディープシークが混乱を招いた2兆ドルを争う市場で投資機会を探る

8. AIDC研究报告2025

9. 英伟达H20或将量产,液冷服务器加速渗透——AI算力月度跟踪报告(202401)

10. 미국주식+ 데이터 센터에서 온디바이스 AI까지 (Feat. 엔비디아 vs. AMD)

11. J. Ainslie, J. Lee-Thorp et al. “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints.” ArXiv

12. 十五五算力行业发展研究与产业战略规划分析预测 [2025-04-03]

13. 获沙特15亿美元投资,Groq专注以垂直整合策略打造AI推理基础设施 [2025-06-11]

14. Jianlin Su, Yu Lu et al. “RoFormer: Enhanced Transformer with Rotary Position Embedding.” ArXiv

15. State of AI: China

16. 通信年度策略:紧抓海外及国内AI发展带来的机遇

17. AI 现状:中国

18. AI硬件革命进行时:Groq LPU与英伟达H100算力成本对比分析 [2024-01-01]

19. NVIDIA H100 GPUs to Draw as Much Power as Entire Cities by 2024: Nearly 2.5 Billion Watts [2023-12-28]

20. 从小白到精通,装机一篇文章就够了 [2022-10-25]

21. OTII 服务器测试规范

22. AI 服务器白皮书(2023 年)

23. 满足AI服务器电源需求的新一代GaN器件 [2024-01-05]

24. 服务器电源:AI芯片功耗提升,高功率电源景气上行——AI算力“卖水人”系列(五)

25. AI服务器电源行业深度:比较优势、竞争格局、市场空间 [2025-02-15]

26. High-Density Power for the AI Revolution

27. 通用冗余电源 [2024-07-18]

28. Common redundant power supply [2024-07-18]

29. 电源,开启全新空间!

30. 高研发平台型企业,多元布局驱动成长

31. 纳微半导体发布CRPS185 3.2kW钛金Plus服务器电源

32. 第三代半导体驱动超高功率密度CRPS185 3200W钛金Plus服务器电源设计

33. HPE ProLiant DL120 Generation 9 システム構成図

34. 服务器电源设计中的五大趋势

35. 服务器节能认证:80PLUS钛金白金牌电源的真实效率 [2025-06-14]

36. AI发展驱动下一代AI服务器电源崛起,关注北交所AI电源产业链企业——北交所科技成长产业跟踪第七期(20241229)

37. 支持AI算力的无形“底座”,盘点市面常见高功率密度服务器电源 [2025-02-25]

38. 服务器电源80plus [2019-01-15]

39. 助力AI领先优势:稳态于 Computex 展示超高效率 1616W 钛金电源 [2024-05-31]

40. Dell PowerEdge XE9680 安装与服务手册 [2024-01-19]

41. Dell PowerEdge XE9680 服务器配置详情 [2024-04-28]

42. Running your in-house chatbot using very large LLMs on Dell PowerEdge XE9680 servers with NVIDIA H100 GPUs

43. Dell EMC Dell PowerEdge XE9680 and XE8640 Install DUMPS BY Mccullough 05-07-2024 10QA certsinside


  • 关注微信

猜你喜欢

微信公众号