LLM VRAM Calculator - 专业大模型显存计算器

LLM GPU 显存深度计算器

量化评估模型权重精度、GQA 架构及 KV 缓存开销

⚙️ 模型配置参数

:

📊 预测总显存




-- GB

📖 计算原理说明

1. 模型权重(Model Weights):

固定显存占用。公式:

Weight_VRAM = 参数量 × 存储字节

例如:72B 模型在 INT4 下占用 36 GB。这是模型运行的底噪。

2. KV Cache(动态缓存):

推理过程中为了性能保存的历史记录。公式:

KV_VRAM = 2 × 层数 × (隐藏层 × GQA比例) × 字节数 × Batch × Seq

3. 系统冗余与激活值:

     包含 CUDA 上下文及中间计算缓冲区。本工具按前两项总和的 15% 自动计算安全余量。


4. GQA比例值:

GQA比例 = Query头的数量(通常记作n) : KV 头的数量(通常记作k) = num_key_value_heads : num_attention_heads
     现代模型通过GQA (Grouped Query Attention) 将 KV 宽度大幅缩小,从而支持更长的上下文。