不同显存能跑哪些本地大模型？

从 6GB、8GB、12GB、24GB 到 48GB，解释模型参数量、量化版本、KV 缓存和系统开销如何共同决定能否加载。

先看结论：显存不是唯一瓶颈

判断本地大模型能不能跑，不能只看模型参数量，也不能只看显存数字。真正影响加载的是模型权重、量化格式、KV 缓存、运行框架开销、系统后台占用，以及是否需要把部分层卸载到 CPU 内存。一个 7B 模型的 Q4 版本可能很轻松，一个 14B 的 Q8 版本就会紧张；同样是 24GB 显存，如果上下文从 4K 拉到 32K，KV 缓存也会把可用空间吃掉。

Local LLM 的推荐思路是先做可运行性判断，再按用途和模型质量排序。用户输入显存、内存、系统和用途后，后端会估算权重占用、KV 缓存和运行余量。如果模型需要 partial offload，页面会显示为部分卸载，而不是把它包装成“完整可跑”。这对普通用户很重要，因为能加载和好用是两件事。

6GB 到 8GB：优先小模型和低量化

6GB 到 8GB 显存更适合 1B、3B、4B、7B 的 Q4 或 Q5 量化模型。这个区间可以满足轻量问答、简单代码解释、摘要、翻译和低并发个人使用，但不适合把所有热门大模型都往里塞。视觉模型、多模态模型和长上下文任务会更快触顶，因为图像编码器和 KV 缓存也要占内存。

如果用户只有 8GB 显存，推荐页应该更保守：宁可推荐能完整 GPU 运行的小模型，也不要把一个 30B 模型以部分卸载形式排到最前。部分卸载在某些场景能跑，但速度和体验取决于 CPU、内存带宽、PCIe、推理后端和系统负载，不能当作普通用户的首选答案。

12GB 到 16GB：多数桌面用户的甜点区间

12GB 和 16GB 是很多消费级显卡的常见配置，例如 RTX 3060 12GB、RTX 4070 12GB、RTX 4060 Ti 16GB。这个区间通常可以覆盖一批 7B 到 14B 模型的 Q4/Q5 量化版本，编程、通用问答、轻量 RAG 都有可选空间。对用户来说，关键不是追求最大的模型，而是找一个可以稳定跑、速度不会太离谱、上下文长度够用的版本。

在这个区间，量化选择会直接影响体验。Q4 通常更容易装下，Q5/Q6 质量更稳但占用更高，Q8 接近高质量但会明显挤压余量。Local LLM 的页面应该让用户看到“所需内存”和“运行方式”，而不是只给一个模型名。这样用户才知道推荐结果为什么排序靠前。

24GB 到 48GB：开始追求更高质量和更长上下文

24GB 显存是本地 LLM 的重要分水岭。它可以让用户尝试更大的 14B、27B、30B、32B 模型，或者把 7B/14B 模型跑在更高量化和更长上下文下。48GB 以上则更适合高质量量化、更多实验空间、多模型切换和较长上下文任务。

但更大显存仍然不等于所有模型都能好用。MoE 模型的总参数和激活参数不同，速度估算要看 active 参数和内存读取；视觉模型还要考虑图像编码器；长上下文会增加 KV 缓存。推荐系统需要把这些差异拆开显示，避免用户误以为“显存够大就一定快”。

内存和 CPU 卸载什么时候有用？

当显存不够但系统内存足够时，一些后端可以把部分层放到 CPU 内存里。这能让模型加载起来，但速度往往会下降，尤其是独立显卡需要经过 PCIe 传输时。Apple Silicon 的统一内存没有同样的 PCIe cliff，但仍然受内存带宽、Metal/MLX kernel 和后台占用影响。

所以页面应该把完整 GPU、部分卸载、CPU only 区分开。普通用户最需要知道的是：完整 GPU 运行通常体验最好；部分卸载可以作为备选；CPU only 主要适合小模型或离线测试，不适合期待高吞吐的聊天体验。

怎么用 Local LLM 做选择

输入显存和内存后，先看前几名是否为完整 GPU 运行，再看量化版本和速度置信区间。如果第一名是部分卸载，说明它在质量或下载热度上有优势，但并不一定是体验最好的日常选择。用户可以切换“质量优先、均衡、长上下文”来观察排序变化。

对 SEO 页面来说，文章的目标不是替用户背所有型号，而是解释决策逻辑，并把用户带回推荐工具。显存、量化、上下文、运行方式这些概念讲清楚后，用户在工具里输入自己的硬件，得到的结果才有可信度。