华为云：CloudMatrix384突破大模型训推瓶颈，加速行业智能化跃迁

超级管理员
2025-06-24 16:18:17
超级管理员

6月21日，华为开发者大会2025期间，以“CloudMatrix384昇腾AI云服务，算力聚变加速行业AI创新”为主题的高峰论坛顺利举办，四位来自不同领域的AI先行者，与近200位开发者深度对话，从技术内核到场景落地，全面解析基于CloudMatrix384超节点的新一代昇腾AI云服务如何破解AI算力、运力、存力瓶颈，成为行业智能化跃迁的核心引擎。

高密、高速、高效，重建大模型时代的AI基础设施新标准

当前，AI大模型正以指数级速度进化，模型参数突破千亿、万亿级，传统算力架构的“算力墙”“通信墙”“存储墙”已成为制约行业创新的核心痛点。华为云公有云解决方案部CTO刘赫伟在峰会上指出：“大模型的爆发式发展，本质是对算力、运力、存力的全维度挑战。基于CloudMatrix384超节点的昇腾AI云服务，已成为突破算力、运力、存力瓶颈的AI基础设施新标准。”

配图01-刘赫伟.jpg

CloudMatrix384昇腾AI云服务，通过“硬件重构+软件智能”的深度融合，打造出高密、高速、高效的AI-Native基础设施：

• 高密：超节点级联，构建“超级AI服务器”

CloudMatrix384昇腾AI云服务创新性地将384颗昇腾NPU与192颗鲲鹏CPU通过MatrixLink高速网络全对等互联，形成单节点“超级AI服务器”，更是支持432个超节点级联，构建最高16万卡的超大集群，彻底打破传统架构的规模限制，为大模型训练提供“无限算力池”。

• 高速：纳秒级通信，让算力“无损协同”

其核心网络架构MatrixLink通过亲和性调度、协议重构等技术突破，实现三大性能飞跃：卡间带宽高达2.8Tb/s，节点内通信时延降至纳秒级，节点间网络时延仅微秒级。配合PB级虚拟显存、跨节点/集群DRAM池等创新设计，KV Cache传输带宽提升10倍，输出每个Token的时延降至50ms,平均单卡吞吐量跃升到2300 Tokens/s。

• 高效：智能调度，释放算力“最大效能”

基于底层强大的算力、网络、存力，结合上层专家任务智能调度能力，CloudMatrix384昇腾AI云服务基于“一卡一专家、一卡一算子任务”的灵活分配、并行推理，将算力有效使用率（MFU）提升50%以上，同时结合昇腾云脑，实现全栈故障感知、诊断与快速自动恢复，彻底解决传统集群的训推难题。

华为半导体业务部战略与业务发展总监夏砚秋表示：“CloudMatrix384昇腾AI云服务把算力、网络、存储等硬优势与P/D分离、专家调度、算子优化等软实力深度协同，让千亿参数MOE模型的训推性能再上一个台阶。”以DeepSeek V3/R1为例，在较低时延下可实现2000 TPS以上的吞吐量，综合性能全面领先。

配图02-夏砚秋.jpg

行业实践：从大模型到终端智能，多场景验证“算力聚变”价值

CloudMatrix384昇腾AI云服务的技术优势，已在各行业得到初步验证，此次大会上，不同领域的先行者分别展示了他们的案例成果。

硅基流动作为国内领先的大模型MaaS服务商，与华为云的合作由来已久，其政企商业化负责人吴凡在会上介绍，硅基流动早在5月就率先在CloudMatrix384昇腾AI云服务上部署DeepSeek-R1，基于大规模专家并行方案，通过多专家负载均衡和极致通信优化，实现更高吞吐，用户20TPS前提下，单卡Decode吞吐突破1920 Tokens/s，比肩业界主流GPU的部署性能，硅基流动将继续基于CloudMatrix384昇腾AI云服务持续创新，与行业客户合作共同解决AI落地的各种重大难题。

配图03-吴凡.jpg

小艺作为华为终端智能的核心入口，对推理平台的精度、时延、吞吐要求极高。华为计算产品线芯片应用专家卓恒在方案讲述时介绍：“CloudMatrix384超节点凭借其超大算力、带宽、专家并行部署规模，实现了极致的推理吞吐与时延，让小艺的交互体验得到全面提升”同时，将CloudMatrix384超节点与其它技术框架相结合，如与元戎Serverless框架结合，提升长序列推理场景能力，降低了TTFT、提升Prefill/Decode吞吐，与Mindspore结合，实现了EP通信极致覆盖、解决了EP专家负载不均的难题、降低了重计算损失，进一步提升了小艺的训练和推理效能。

配图04-卓恒.jpg

此外，新浪基于CloudMatrix384昇腾AI云服务，让“智慧小浪”推理交付效率提升50%+，上线速度成倍加快；中科院基于CloudMatrix384昇腾AI云服务，自研模型训练框架，快速构建AI4S科研大模型；面壁智能基于CloudMatrix384昇腾AI云服务，实现小钢炮模型的推理业务性能大幅提升；科大讯飞基于CloudMatrix384昇腾Al云服务，助力讯飞星火大模型极致推理性能；360打造的“超级搜索”纳米A搜索，对AI算力有极大需求，也已开启了CloudMatrix384超节点的测试。

刘赫伟在会上总结到：“CloudMatrix384昇腾AI云服务将深度融入电商、社交、文娱、金融、汽车等行业的典型智能化场景，降低AI创新门槛，扩大AI创新成效，让更多企业与开发者享受技术的红利，加速全行业智能化跃迁。”

此次高峰论坛，不仅是一次技术成果的集中展示，更搭建了“技术-场景-生态”的深度交流平台，CloudMatrix384昇腾AI云服务在各行的逐步落地，也标志着AI基础设施正式进入“超节点时代”，而华为云正以开放姿态，携手客户、伙伴，共同书写行业智能化的新篇章。

微信分享