LLM VRAM Calculator - 专业大模型显存计算器

LLM GPU 显存深度计算器

基于权重精度、KV Cache 及系统开销的量化评估模型

⚙️ 模型配置参数

模型总参数量 (Billion)

计算/推理精度

模型层数 (hidden_layers)

隐藏层维度 (hidden_size)

并发用户数 (batch_size)

上下文长度 (sequence_length)

-- GB

这是显存占用的“大头”。无论你是否开始对话，只要模型加载，这部分显存就会被永久占用。

Weight_VRAM = Params × Bytes_per_Param

推理过程中，为了避免重复计算之前的 Token，Transformer 会缓存每一层的 Key 和 Value 向量。

KV_VRAM = 2 × Layers × Hidden_Size × Seq_Len × Batch × Precision

3. 激活值与 CUDA Buffer： 模型前向传播产生的中间结果、梯度以及显卡驱动本身占用的空间。通常预留总量的 10%-20% 作为安全边界。