大模型推理HBM需求

请选择PD混部PD分离估算权重与 HBM;需要评估序列占用时可切换到KV Cache计算。PD混部支持所有模型,PD分离可以提升性能,但仅支持部分模型的特定部署方式。

每张 NPU 估算 HBM

占用 26.40 GB
剩余 37.60 GB
DeepSeek-V4-Flash-W8A8 · Ascend A2 · 8 卡
单卡总容量 64 GB
框架/运行开销 模型文件占用 剩余容量 超出容量

模型权重合计 160 GB(W8A8)/ 8 = 20.00 GB/卡,框架/运行开销 6.40 GB(单卡容量 10%),剩余 37.60 GB/卡。

计算说明: 此结果为简化估算,模型量化方式参考模型名称描述;框架与运行时开销按单卡 HBM 总容量的 10%单独预留。实际部署还会受推理框架实现影响。

容量规划

结合推理任务的模型占用与集群拓扑,评估算力与显存是否满足目标并发与延迟。可先使用 上方 Agentic 推理 · HBM 估算 得到单卡占用,再在下述维度做汇总。

推理集群HBM占用情况

按卡数 × 单卡 HBM 容量汇总可用显存,并与模型切分后的每卡占用对比,判断是否留有余量给 KV、临时缓冲与多副本。

扩展路径

HBM可用显存不足,会导致推理失败,优先考虑增加卡数,或调整模型量化策略;同时对于长序列,命中率高的场景,采用KV Cache多级缓存机制,可以有效提升推理吞吐性能并降低推理时延。

提示: 本站推理页的估算为简化模型;正式容量规划请结合压测、框架版本与业务 SLO 复核。

说明文档

以下为推理页 HBM 估算的规则摘要,便于对齐口径;详细参数以线上推理框架与实测为准。

计算说明

此结果为简化估算,模型量化方式参考模型名称描述;框架与运行时开销按单卡 HBM 总容量的 10%单独预留。实际部署还会受推理框架实现影响。

模型占用

  • 部分型号在界面中选择后,使用固定权重文件总量(GB)除以卡数量得到每卡模型文件占用。
  • 其余型号按模型尺寸 × 2 bytes ÷ 卡数量估算每卡权重占用(按 FP16/BF16 宽度简化)。
  • 单卡 HBM 总容量由所选 NPU 型号自动带出,与推理页联动。

柱状图含义

每张 NPU 横向条从左到右依次为:框架/运行开销(琥珀色)、模型文件占用(蓝色)、剩余容量(绿色)、超出部分(红色)。条的总尺度随是否超出单卡容量而变化。

使用入口: 回到页面顶部 Agentic 推理 · HBM 估算 开始试算。