Apple 统一内存怎么影响本地 LLM？

解释 Mac 上为什么不能把总内存全部当显存，以及 16GB、32GB、64GB、128GB 机器适合怎样选择模型。

统一内存不是“全部都能给模型用”

Apple Silicon 的统一内存由 CPU、GPU、系统、应用和后台服务共同使用。它的优势是 CPU 和 GPU 共享同一块高速内存，很多本地模型工具的部署体验比传统独立显卡简单；但它不等于可以把 32GB、64GB 或 128GB 全部当成模型权重空间。

实际选择模型时，需要给 macOS、浏览器、IDE、推理服务、KV 缓存和临时张量留余量。一个 32GB Mac 如果把模型权重占到 28GB，看起来刚好能装下，实际运行时可能会频繁压缩内存、交换到磁盘或速度大幅下降。Local LLM 在 Mac 模式下会更保守地估算可用空间。

16GB Mac 更适合小模型和中低量化，例如 3B、4B、7B 的 Q4/Q5 版本。它可以满足轻量聊天、总结、翻译和简单代码辅助，但不适合长上下文或视觉模型。32GB 可以覆盖更多 7B/14B 模型，也能尝试更稳的量化版本，是普通开发者较常见的起点。

64GB 以后，用户可以尝试更大的 MoE 或 30B 级模型，也可以给长上下文和多任务留空间。128GB 适合更大的实验范围，例如高量化大模型、多个模型版本对比、较长上下文和复杂本地工作流。但即使是 128GB，也仍然需要看模型权重、KV 缓存、后端和速度。

Mac 上常见后端包括 llama.cpp Metal、MLX、Ollama 和 LM Studio。这些工具底层优化不同，同一个模型在不同后端上的速度可能不同。MoE 模型尤其依赖 kernel 实现，不能只用参数量推断速度。

因此推荐页面里的 tok/s 应该是保守估算或区间，而不是绝对承诺。用户真正需要的是一个筛选方向：哪些模型大概率能加载，哪些模型需要更高内存，哪些模型只是理论能跑但体验不稳。

如果 32GB、64GB 和 128GB 给出完全相同的质量优先推荐，通常说明排序算法没有正确利用容量变化。更大的统一内存应该允许更高参数量、更高量化或更长上下文的模型进入候选集。质量优先模式尤其应该体现这一点。

但“更大”也不是唯一目标。推荐系统需要在模型质量、任务匹配、运行方式、速度置信度和内存余量之间排序。128GB Mac 可以跑更大模型，不代表每个场景都应该无脑推荐最大模型；编程、通用、数学和视觉任务的最佳选择可能不同。

普通用户可以先从均衡模式开始。如果结果都是完整 GPU/统一内存运行，说明配置比较稳；如果大量结果显示部分卸载或低置信速度，就需要降低量化、缩短上下文或选择更小模型。做编程任务时，模型的代码能力和上下文长度很重要；做视觉任务时，要确认模型确实是多模态模型。

Local LLM 的价值在于把这些判断做成可视化输入，而不是让用户在 Hugging Face 上一个个猜。博客文章负责解释原则，工具负责结合实时模型列表和用户硬件给出当前推荐。