LLM GPU 显存深度计算器
量化评估模型权重精度、GQA 架构及 KV 缓存开销
⚙️ 模型配置参数
:
📊 预测总显存
-- GB
📖 计算原理说明
1. 模型权重(Model Weights):
固定显存占用。公式:
Weight_VRAM = 参数量 × 存储字节
例如:72B 模型在 INT4 下占用 36 GB。这是模型运行的底噪。
2. KV Cache(动态缓存):
推理过程中为了性能保存的历史记录。公式:
KV_VRAM = 2 × 层数 × (隐藏层 × GQA比例) × 字节数 × Batch × Seq
3. 系统冗余与激活值:
     包含 CUDA 上下文及中间计算缓冲区。本工具按前两项总和的 15% 自动计算安全余量。
4. GQA比例值:
GQA比例 = Query头的数量(通常记作n) : KV 头的数量(通常记作k) = num_key_value_heads : num_attention_heads
     现代模型通过GQA (Grouped Query Attention) 将 KV 宽度大幅缩小,从而支持更长的上下文。