LLM VRAM Calculator - 专业大模型显存计算器

LLM GPU 显存深度计算器

基于权重精度、KV Cache 及系统开销的量化评估模型

⚙️ 模型配置参数

📊 预测总显存

-- GB

📖 计算原理说明

1. 模型权重 (Model Weights)

这是显存占用的“大头”。无论你是否开始对话,只要模型加载,这部分显存就会被永久占用。

Weight_VRAM = Params × Bytes_per_Param
  • FP16 为 2 字节,INT4 约为 0.5 字节。
  • 例如:7B 模型在 FP16 下占用 14 GB。

2. KV Cache (键值缓存)

推理过程中,为了避免重复计算之前的 Token,Transformer 会缓存每一层的 Key 和 Value 向量。

KV_VRAM = 2 × Layers × Hidden_Size × Seq_Len × Batch × Precision
  • 它随上下文长度和并发数线性增长。
  • 注意:现代模型如 Llama 3 使用了 GQA 技术,KV Cache 会更小(本计算器按标准 MHA 估算,结果更保守安全)。

3. 激活值与 CUDA Buffer: 模型前向传播产生的中间结果、梯度以及显卡驱动本身占用的空间。通常预留总量的 10%-20% 作为安全边界。