LLM GPU 显存深度计算器
基于权重精度、KV Cache 及系统开销的量化评估模型
⚙️ 模型配置参数
📊 预测总显存
-- GB📖 计算原理说明
1. 模型权重 (Model Weights)
这是显存占用的“大头”。无论你是否开始对话,只要模型加载,这部分显存就会被永久占用。
Weight_VRAM = Params × Bytes_per_Param
- FP16 为 2 字节,INT4 约为 0.5 字节。
- 例如:7B 模型在 FP16 下占用 14 GB。
2. KV Cache (键值缓存)
推理过程中,为了避免重复计算之前的 Token,Transformer 会缓存每一层的 Key 和 Value 向量。
KV_VRAM = 2 × Layers × Hidden_Size × Seq_Len × Batch × Precision
- 它随上下文长度和并发数线性增长。
- 注意:现代模型如 Llama 3 使用了 GQA 技术,KV Cache 会更小(本计算器按标准 MHA 估算,结果更保守安全)。
3. 激活值与 CUDA Buffer: 模型前向传播产生的中间结果、梯度以及显卡驱动本身占用的空间。通常预留总量的 10%-20% 作为安全边界。