本文介绍了在本地运行大语言模型(LLM)时计算显存(VRAM)需求的实用公式与指导原则。核心逻辑为“显存 ≈ 参数量 × (位宽 ÷ 8)”,详细对比了FP16、FP8及各类量化格式(如GGUF、4-bit)的占用情况,并提醒开发者需额外考虑KV缓存和框架开销等“显存税”。