大模型推理HBM需求

请选择PD混部或PD分离估算权重与 HBM；需要评估序列占用时可切换到KV Cache计算。PD混部支持所有模型，PD分离可以提升性能，但仅支持部分模型的特定部署方式。

每张 NPU 估算 HBM

占用 26.40 GB

剩余 37.60 GB

DeepSeek-V4-Flash-W8A8 · Ascend A2 · 8 卡

单卡总容量 64 GB

框架/运行开销模型文件占用剩余容量超出容量

模型权重合计 160 GB（W8A8）/ 8 = 20.00 GB/卡，框架/运行开销 6.40 GB（单卡容量 10%），剩余 37.60 GB/卡。

计算说明： 此结果为简化估算，模型量化方式参考模型名称描述；框架与运行时开销按单卡 HBM 总容量的 10%单独预留。实际部署还会受推理框架实现影响。

每张 NPU 估算 HBM（瓶颈侧）

占用 -- GB

剩余 -- GB

—

单卡总容量 — GB

框架/运行开销模型文件占用剩余容量超出容量

选择 PD 部署方式后，将按 P/D 分组展示每卡占用与瓶颈侧柱状图。

计算说明（PD分离）： 权重总量与混部相同。总卡数按部署方式分为 Prefill 池与 Decode 池（各占一半），再按 P 组数 / D 组数拆成若干组；每一组各部署一整份模型权重，组内按卡数均摊。每组公式：单卡模型占用 = 权重总量 GB ÷ 该组卡数；另加 单卡 HBM 的 10% 作为框架/运行开销。主视图与柱状图为Prefill 侧与 Decode 侧中单卡总占用更高的一侧（瓶颈侧）。

大模型名称

模型尺寸（联动）

Transformer 层数 (L)

MoE 专家数量（档案）

KV 注意力头数 (num_key_value_heads)

Head 维度 (head_dim)

KV 量化方式（由模型名称联动）

dtype_size（bytes / element）

Batch 大小 (batch_size)

序列长度 (seq_len)

KV Cache 估算体积（dtype_size 随模型量化方式联动）

-- GB

计算说明（KV Cache）： 采用业界通用估算（见 KV Cache Sizing 等资料）：标准 GQA 为 KV_bytes = 2 × L × num_key_value_heads × head_dim × seq_len × batch_size × dtype_size。Qwen3.6（混合注意力） 为 L_full × 2 × H_kv × head_dim × seq_len × batch_size × dtype_size（FP16 @ 1M 约 19.1 GiB；linear 层不计 KV）。DeepSeek R1 / V3.1（MLA） 为 L × (kv_lora_rank + qk_rope_head_dim) × seq_len × batch_size × dtype_size（W4A8 / W8A8 均按激活 A8 → INT8 KV，1 byte/元素；W4 仅影响权重）。GLM-5.1（MLA + DSA） 为 L × seq_len × batch_size × [(kv_lora_rank + qk_rope_head_dim + DSA_index_head_dim) × dtype_size + indexer_scale]（W8A8 @ 1M 约 51.4 GiB；仅 MLA 约 41.8 GiB）。DeepSeek V4（CSA/HCA） 按 BF16 @ 1M 锚点 × (dtype_size / 2) × seq_len 比例 估算（V4-Flash W8A8 约 4.81 GiB，BF16 基准 9.62 GiB ÷ 2）。

容量规划

结合推理任务的模型占用与集群拓扑，评估算力与显存是否满足目标并发与延迟。可先使用上方 Agentic 推理 · HBM 估算得到单卡占用，再在下述维度做汇总。

推理集群HBM占用情况

按卡数 × 单卡 HBM 容量汇总可用显存，并与模型切分后的每卡占用对比，判断是否留有余量给 KV、临时缓冲与多副本。

扩展路径

HBM可用显存不足，会导致推理失败，优先考虑增加卡数，或调整模型量化策略；同时对于长序列，命中率高的场景，采用KV Cache多级缓存机制，可以有效提升推理吞吐性能并降低推理时延。

提示： 本站推理页的估算为简化模型；正式容量规划请结合压测、框架版本与业务 SLO 复核。

说明文档

以下为推理页 HBM 估算的规则摘要，便于对齐口径；详细参数以线上推理框架与实测为准。

计算说明

此结果为简化估算，模型量化方式参考模型名称描述；框架与运行时开销按单卡 HBM 总容量的 10%单独预留。实际部署还会受推理框架实现影响。

模型占用

部分型号在界面中选择后，使用固定权重文件总量（GB）除以卡数量得到每卡模型文件占用。
其余型号按模型尺寸 × 2 bytes ÷ 卡数量估算每卡权重占用（按 FP16/BF16 宽度简化）。
单卡 HBM 总容量由所选 NPU 型号自动带出，与推理页联动。

柱状图含义

每张 NPU 横向条从左到右依次为：框架/运行开销（琥珀色）、模型文件占用（蓝色）、剩余容量（绿色）、超出部分（红色）。条的总尺度随是否超出单卡容量而变化。

使用入口： 回到页面顶部 Agentic 推理 · HBM 估算开始试算。