产品核心技术解决方案实测验证客户案例目标客户知识产权关于我们投资者关系新闻 联系 English

AI 推理存储加速

面向大模型推理的存储加速:让同样的 GPU 产出更多 token、支撑更长上下文与更高并发。

什么是 AI 推理存储加速?

AI 推理存储加速,是通过存算分离全闪架构与 KV Cache 卸载,为推理集群提供低时延高带宽数据通路,从而提升 token 产出、并发与上下文长度的方法,而非单纯堆叠 GPU。

为什么不是“多买卡”就能解决?

因为瓶颈常在存储 IO 而非算力本身。IO 受限时有效 GPU 利用率常仅 30–50%,先用存储加速把利用率提上去(约 2–3 倍,S4),通常比继续增购 GPU 更经济。

客观对比(不贬损同行)

下表为公开口径下的客观维度对比,便于选型参考;以各厂商最新官方资料为准。

维度中科存储 WS 系列海外 AI 原生(VAST/WEKA)国产全栈(华为)
架构存算分离 EBOF + NVMe-oF/RoCEDASE 全闪存算一体 / 全栈
国产 GPU 深度适配90%+(昇腾/寒武纪,S9)以 NVIDIA 为主强(昇腾)
数据不出域 / 信创强(自主可控)合规/供应链需评估
第三方实测有(北京信息科技大学·昇腾 910B,S38)以官方/第三方资料为准以官方资料为准
部署周期约 48-72 小时(S9)数周–数月数周

口径说明

对比维度基于公开资料与项目方口径(S9/S38),仅供选型参考,不构成对第三方的贬损;具体以各方最新官方信息为准。

FAQ

AI 推理存储加速常见问题

什么是 KV Cache 存储卸载(KV Cache offload)?

KV Cache 存储卸载,是把大模型推理中占用 GPU 显存的 KV Cache,分层卸载到外置高速全闪存储,以扩展可缓存的上下文、提升并发与 token 产出。行业研究显示,KV Cache 卸载在在线工作负载下最高可降本约 73.7%(来源 S5)。中科存储以存算分离全闪架构与 KV-Cache 分层调度承接这一需求。

部署周期和成本优势如何?

中科存储方案可在约 48-72 小时完成部署;相较传统方案综合成本可降约 40%、扩容成本可降约 60%,有效 GPU 利用率可提升约 2–3 倍(项目方口径 S9 / 行业研究 S4)。

和传统 NFS 网络存储相比差距有多大?

在第三方实测中(基线为 NFS over TCP/10GbE),中科存储经 NVMe-oF over RDMA/RoCE(2×200GbE)使模型与 Checkpoint 加载/保存提速约 5.3–12.5 倍、推理加载最高 85.17 倍,7 项指标中位降幅约 90.9%(来源 S38)。

和华为、VAST、WEKA 等相比,差异化在哪里?

中科存储定位为国产存算分离全闪加速专精厂商:在国产 GPU 深度适配、数据不出域/信创合规、综合 TCO 与快速部署上具差异化;并已具备第三方独立实测与量产能力。客观对比详见“AI 推理存储加速”页(不贬损同行)。

最后更新: