2025年6月21日,在华为开发者大会2025(HDC 2025)期间,华为云存储服务产品部举办了“AI存储推理解决方案”专题论坛,与领域内资深专家、学者和行业客户共同探讨AI存储在推理领域的发展趋势、创新成果和实践经验。
AI时代的内存型存储
清华大学助理教授章明星指出:更高推理智能带来更大推理负载,显存容量成为制约推理效率提升的关键瓶颈。为突破显存容量限制,利用高速互联网络,构建多级透明的大容量高带宽内存型存储,缓存KV Cache,以存代算,已成为产业共识。
清华大学助理教授 章明星
华为云AI存储推理解决方案,构建AI云存储新范式
华为云AI-Native智算存储产品总监、首席产品官杨生彬表示:“Memory记忆”已成为Agentic AI时代数据应用的新范式,华为云存储推出以“MemoryPooling内存池”为中心的记忆存储产品组合M³,打造更高效的智能记忆体:
1) 在日推夜训、业务浪涌场景,高性能弹性文件存储SFS Turbo与弹性内存存储EMS联动,实现初始记忆(模型)快速加载,缩短推理算力等待时间
2) 在多轮对话、公共前缀场景,弹性内存存储EMS基于CloudMatrix 384超节点对等池化,实现短期记忆(KV Cache)高效命中,减少推理时延
3) 在企业知识库、多模态挖掘场景,知识湖存储LMS支持索引数据共享内存池,实现长期记忆(向量)查询范围扩大百倍,价值数据获取从周级缩短至分钟级。
华为云AI-Native智算存储产品总监、首席产品官 杨生彬
以存强算,高性能弹性文件存储加速模型加载,提升华为终端算力有效利用率
华为终端业务规模快速增长,已达到几万卡级别集群、上千模型服务规模。在日推夜训、业务浪涌等业务场景中,需要短时间内批量加载模型上万次,模型仓带宽成为瓶颈,批量加载易超时。华为终端项目主管郭宇分享了高性能弹性文件存储SFS Turbo和弹性内存存储EMS在华为终端AI推理平台中的联合创新成果,他表示:“基于SFS Turbo三级缓存和EMS分布式内存池化技术,突破带宽瓶颈,模型加载时间缩短80%以上。”
华为终端项目主管 郭宇
以存代算,弹性内存存储优化推理缓存,助力无问芯穹一站式AI平台推理效益跃升
无问芯穹是国内最具代表性的AI基础设施企业之一,降本增效是其持续发展的关键。无问芯穹技术副总裁吴保东表示:“无问芯穹迫切需要提升推理算力利用率和整体吞吐率。弹性内存存储EMS通过分布式内存池化技术,打破“内存墙”,助力无问芯穹自研推理引擎优化KV Cache缓存,大幅提升缓存命中率,降低平均首token时延,节省推理算力资源。”
无问芯穹技术副总裁 吴保东
以存补算,知识湖存储助力华为乾崑智驾提升大模型记忆能力,通向更高阶智驾
大模型记忆增强是解决智能驾驶长尾问题、通往高阶自驾能力的基础。华为乾崑智驾架构师刘雨晨提出,随着自动驾驶快速发展,向量数据从十亿扩张到百亿级,支撑如此大规模的向量数据存储,并满足亚秒级的数据查询速度要求,是当前面临的一个巨大挑战。刘雨晨表示:“知识湖存储LMS以存补算,支持百亿级向量规模,Top 10万查询结果百毫秒级返回,将华为乾崑智驾在复杂场景下的难例数据获取时间从周级缩短至分钟级。”
华为乾崑智驾架构师 刘雨晨
大模型推理应用快速发展,驱动AI存储推理解决方案不断迭代升级。华为云AI-Native智算存储将与众多专家、学者和行业客户一起,持续探索前沿创新技术,共同拥抱数智未来!