大模型推理HBM需求
请选择PD混部或PD分离估算权重与 HBM;需要评估序列占用时可切换到KV Cache计算。PD混部支持所有模型,PD分离可以提升性能,但仅支持部分模型的特定部署方式。
每张 NPU 估算 HBM
模型权重合计 160 GB(W8A8)/ 8 = 20.00 GB/卡,框架/运行开销 6.40 GB(单卡容量 10%),剩余 37.60 GB/卡。
容量规划
结合推理任务的模型占用与集群拓扑,评估算力与显存是否满足目标并发与延迟。可先使用 上方 Agentic 推理 · HBM 估算 得到单卡占用,再在下述维度做汇总。
推理集群HBM占用情况
按卡数 × 单卡 HBM 容量汇总可用显存,并与模型切分后的每卡占用对比,判断是否留有余量给 KV、临时缓冲与多副本。
扩展路径
HBM可用显存不足,会导致推理失败,优先考虑增加卡数,或调整模型量化策略;同时对于长序列,命中率高的场景,采用KV Cache多级缓存机制,可以有效提升推理吞吐性能并降低推理时延。
说明文档
以下为推理页 HBM 估算的规则摘要,便于对齐口径;详细参数以线上推理框架与实测为准。
计算说明
此结果为简化估算,模型量化方式参考模型名称描述;框架与运行时开销按单卡 HBM 总容量的 10%单独预留。实际部署还会受推理框架实现影响。
模型占用
- 部分型号在界面中选择后,使用固定权重文件总量(GB)除以卡数量得到每卡模型文件占用。
- 其余型号按模型尺寸 × 2 bytes ÷ 卡数量估算每卡权重占用(按 FP16/BF16 宽度简化)。
- 单卡 HBM 总容量由所选 NPU 型号自动带出,与推理页联动。
柱状图含义
每张 NPU 横向条从左到右依次为:框架/运行开销(琥珀色)、模型文件占用(蓝色)、剩余容量(绿色)、超出部分(红色)。条的总尺度随是否超出单卡容量而变化。