先看结论:显存不是唯一瓶颈
判断本地大模型能不能跑,不能只看模型参数量,也不能只看显存数字。真正影响加载的是模型权重、量化格式、KV 缓存、运行框架开销、系统后台占用,以及是否需要把部分层卸载到 CPU 内存。一个 7B 模型的 Q4 版本可能很轻松,一个 14B 的 Q8 版本就会紧张;同样是 24GB 显存,如果上下文从 4K 拉到 32K,KV 缓存也会把可用空间吃掉。
Local LLM 的推荐思路是先做可运行性判断,再按用途和模型质量排序。用户输入显存、内存、系统和用途后,后端会估算权重占用、KV 缓存和运行余量。如果模型需要 partial offload,页面会显示为部分卸载,而不是把它包装成“完整可跑”。这对普通用户很重要,因为能加载和好用是两件事。
6GB 到 8GB:优先小模型和低量化
6GB 到 8GB 显存更适合 1B、3B、4B、7B 的 Q4 或 Q5 量化模型。这个区间可以满足轻量问答、简单代码解释、摘要、翻译和低并发个人使用,但不适合把所有热门大模型都往里塞。视觉模型、多模态模型和长上下文任务会更快触顶,因为图像编码器和 KV 缓存也要占内存。
如果用户只有 8GB 显存,推荐页应该更保守:宁可推荐能完整 GPU 运行的小模型,也不要把一个 30B 模型以部分卸载形式排到最前。部分卸载在某些场景能跑,但速度和体验取决于 CPU、内存带宽、PCIe、推理后端和系统负载,不能当作普通用户的首选答案。
12GB 到 16GB:多数桌面用户的甜点区间
12GB 和 16GB 是很多消费级显卡的常见配置,例如 RTX 3060 12GB、RTX 4070 12GB、RTX 4060 Ti 16GB。这个区间通常可以覆盖一批 7B 到 14B 模型的 Q4/Q5 量化版本,编程、通用问答、轻量 RAG 都有可选空间。对用户来说,关键不是追求最大的模型,而是找一个可以稳定跑、速度不会太离谱、上下文长度够用的版本。
在这个区间,量化选择会直接影响体验。Q4 通常更容易装下,Q5/Q6 质量更稳但占用更高,Q8 接近高质量但会明显挤压余量。Local LLM 的页面应该让用户看到“所需内存”和“运行方式”,而不是只给一个模型名。这样用户才知道推荐结果为什么排序靠前。
24GB 到 48GB:开始追求更高质量和更长上下文
24GB 显存是本地 LLM 的重要分水岭。它可以让用户尝试更大的 14B、27B、30B、32B 模型,或者把 7B/14B 模型跑在更高量化和更长上下文下。48GB 以上则更适合高质量量化、更多实验空间、多模型切换和较长上下文任务。
但更大显存仍然不等于所有模型都能好用。MoE 模型的总参数和激活参数不同,速度估算要看 active 参数和内存读取;视觉模型还要考虑图像编码器;长上下文会增加 KV 缓存。推荐系统需要把这些差异拆开显示,避免用户误以为“显存够大就一定快”。
内存和 CPU 卸载什么时候有用?
当显存不够但系统内存足够时,一些后端可以把部分层放到 CPU 内存里。这能让模型加载起来,但速度往往会下降,尤其是独立显卡需要经过 PCIe 传输时。Apple Silicon 的统一内存没有同样的 PCIe cliff,但仍然受内存带宽、Metal/MLX kernel 和后台占用影响。
所以页面应该把完整 GPU、部分卸载、CPU only 区分开。普通用户最需要知道的是:完整 GPU 运行通常体验最好;部分卸载可以作为备选;CPU only 主要适合小模型或离线测试,不适合期待高吞吐的聊天体验。
怎么用 Local LLM 做选择
输入显存和内存后,先看前几名是否为完整 GPU 运行,再看量化版本和速度置信区间。如果第一名是部分卸载,说明它在质量或下载热度上有优势,但并不一定是体验最好的日常选择。用户可以切换“质量优先、均衡、长上下文”来观察排序变化。
对 SEO 页面来说,文章的目标不是替用户背所有型号,而是解释决策逻辑,并把用户带回推荐工具。显存、量化、上下文、运行方式这些概念讲清楚后,用户在工具里输入自己的硬件,得到的结果才有可信度。