2025年6月21日,在华为开发者大会(HDC 2025)期间,华为云存储服务产品部举办了以“华为云AI存储训练解决方案,以存强算,释放AI算力潜能”为主题的专题论坛,邀请领域内的资深专家、学者和行业客户,一同探讨云存储在AI训练场景的发展趋势、创新成果和实践经验。
AI大模型时代存储系统挑战和技术发展
华中科技大学教授、中国计算机行业协会信息存储与安全专委会会长谢长生指出,AI存储面临容量、性能、成本等诸多挑战;数据访问效率制约模型训练速度,存储性能面临三大挑战:
1) 海量小文件元数据瓶颈,需处理几亿到几十亿小文件,元数据处理能力不足
2) 数据加载速度慢,导致计算硬件空等待,阻塞训练过程
3) 频繁、缓慢的模型保存(Checkpoint)严重影响大模型训练效率
华中科技大学教授 谢长生
突破大模型训练瓶颈:基于原生检查点系统的高效存储架构研究
上海交通大学副教授、博士生导师魏星达提出,AI应用的大带宽需求给云存储带来了新的挑战,AI负载感知的高性能原生云存储有两大核心技术点:
1) 利用算力节点间的网络资源,有效提升存储访问带宽;
2) 感知AI任务的冗余特征,透明写入去冗余优化,降低存储写入带宽。
上海交通大学副教授 魏星达
华为云AI存储训练解决方案,以存强算,释放AI算力潜能
华为云块存储服务总监於来欣重磅发布SFS Turbo智算型,带来四大产品能力升级:
1) 容量:单文件系统容量从1PB升级至30PB,容量规模提升30倍;
2) IOPS:单文件系统IOPS从200万提升至3000万,IOPS规格提升15倍;
3) 带宽:单文件系统带宽从200GB/s提升至2TB/s,带宽规格提升10倍;
4) 带宽扩容:容量与带宽解耦,扩带宽无需扩容量。
面向L3自动驾驶和万亿参数大模型训练场景,打造AI存储训练解决方案竞争力:
1) 数据预热:OBS+SFS Turbo联动,结合新一代分布式元数据管理引擎,海量小文件快速预热,10亿条小文件训练原始数据0.5小时加载完成。
2) 模型训练:SFS Turbo三级缓存加速,检查点快照数据秒级快存快恢,减少AI算力等待时间,提升AI算力资源利用率。
3) 智能分级:OBS智能分级助力热温冷存储成本降低20%,Storage lens存储指标分析平台使能数据管理效率提升20%。
华为云块存储服务总监 於来欣
从小时到秒级,AI存储助力华为IT 万卡集群突破IO带宽瓶颈
华为流程IT首席存储架构师叶飞指出:在统一企业AI数字化产线的建设实践中,我们发现CKPT恢复慢,万卡集群有效训练时长低,严重影响NPU有效卡时使用率。华为云AI存储训练解决方案提供的三级缓存架构,推进万卡万亿参数训练集群步入CKPT秒级快存快恢时代, 华为IT试点业务的NPU使用率提升至91%。
华为流程IT首席存储架构师 叶飞
在模型的训练过程中,面临原始数据的加载速度慢,算力资源利用率难以提升的问题。面壁智能副总裁贾超分享了面壁智能的最新产品面壁小钢炮MiniCPM4.0,它利用投机、稀疏、量化等创新架构,实现稳定5倍的推理速度提升。贾超指出:华为云AI存储训练解决方案为面壁智能构建了统一的数据湖底座,实现海量小文件快速预热,算力资源利用率得到有效提升。
面壁智能副总裁 贾超
面向未来,华为云AI-Native智算存储将继续携手产业专家和行业客户,不断挖掘云存储技术潜力,加速AI进化步伐!