华为云AI存储训练解决方案，以存强算，释放AI算力潜能

超级管理员
2025-06-24 12:46:44
超级管理员

2025年6月21日，在华为开发者大会（HDC 2025）期间，华为云存储服务产品部举办了以“华为云AI存储训练解决方案，以存强算，释放AI算力潜能”为主题的专题论坛，邀请领域内的资深专家、学者和行业客户，一同探讨云存储在AI训练场景的发展趋势、创新成果和实践经验。

AI大模型时代存储系统挑战和技术发展

华中科技大学教授、中国计算机行业协会信息存储与安全专委会会长谢长生指出，AI存储面临容量、性能、成本等诸多挑战；数据访问效率制约模型训练速度，存储性能面临三大挑战：

1) 海量小文件元数据瓶颈，需处理几亿到几十亿小文件，元数据处理能力不足

2) 数据加载速度慢，导致计算硬件空等待，阻塞训练过程

3) 频繁、缓慢的模型保存（Checkpoint）严重影响大模型训练效率

华中科技大学教授谢长生

突破大模型训练瓶颈：基于原生检查点系统的高效存储架构研究

上海交通大学副教授、博士生导师魏星达提出，AI应用的大带宽需求给云存储带来了新的挑战，AI负载感知的高性能原生云存储有两大核心技术点：

1) 利用算力节点间的网络资源，有效提升存储访问带宽；

2) 感知AI任务的冗余特征，透明写入去冗余优化，降低存储写入带宽。

上海交通大学副教授魏星达

华为云AI存储训练解决方案，以存强算，释放AI算力潜能

华为云块存储服务总监於来欣重磅发布SFS Turbo智算型，带来四大产品能力升级：

1) 容量：单文件系统容量从1PB升级至30PB，容量规模提升30倍；

2) IOPS：单文件系统IOPS从200万提升至3000万，IOPS规格提升15倍；

3) 带宽：单文件系统带宽从200GB/s提升至2TB/s，带宽规格提升10倍；

4) 带宽扩容：容量与带宽解耦，扩带宽无需扩容量。

面向L3自动驾驶和万亿参数大模型训练场景，打造AI存储训练解决方案竞争力：

1) 数据预热：OBS+SFS Turbo联动，结合新一代分布式元数据管理引擎，海量小文件快速预热，10亿条小文件训练原始数据0.5小时加载完成。

2) 模型训练：SFS Turbo三级缓存加速，检查点快照数据秒级快存快恢，减少AI算力等待时间，提升AI算力资源利用率。

3) 智能分级：OBS智能分级助力热温冷存储成本降低20%，Storage lens存储指标分析平台使能数据管理效率提升20%。

华为云块存储服务总监於来欣

从小时到秒级，AI存储助力华为IT 万卡集群突破IO带宽瓶颈

华为流程IT首席存储架构师叶飞指出：在统一企业AI数字化产线的建设实践中，我们发现CKPT恢复慢，万卡集群有效训练时长低，严重影响NPU有效卡时使用率。华为云AI存储训练解决方案提供的三级缓存架构，推进万卡万亿参数训练集群步入CKPT秒级快存快恢时代，华为IT试点业务的NPU使用率提升至91%。

华为流程IT首席存储架构师叶飞

AI云存储助力面壁智能构建超强「端侧大脑」

在模型的训练过程中，面临原始数据的加载速度慢，算力资源利用率难以提升的问题。面壁智能副总裁贾超分享了面壁智能的最新产品面壁小钢炮MiniCPM4.0，它利用投机、稀疏、量化等创新架构，实现稳定5倍的推理速度提升。贾超指出：华为云AI存储训练解决方案为面壁智能构建了统一的数据湖底座，实现海量小文件快速预热，算力资源利用率得到有效提升。