统一内存不是“全部都能给模型用”
Apple Silicon 的统一内存由 CPU、GPU、系统、应用和后台服务共同使用。它的优势是 CPU 和 GPU 共享同一块高速内存,很多本地模型工具的部署体验比传统独立显卡简单;但它不等于可以把 32GB、64GB 或 128GB 全部当成模型权重空间。
实际选择模型时,需要给 macOS、浏览器、IDE、推理服务、KV 缓存和临时张量留余量。一个 32GB Mac 如果把模型权重占到 28GB,看起来刚好能装下,实际运行时可能会频繁压缩内存、交换到磁盘或速度大幅下降。Local LLM 在 Mac 模式下会更保守地估算可用空间。
16GB、32GB、64GB、128GB 分别适合什么
16GB Mac 更适合小模型和中低量化,例如 3B、4B、7B 的 Q4/Q5 版本。它可以满足轻量聊天、总结、翻译和简单代码辅助,但不适合长上下文或视觉模型。32GB 可以覆盖更多 7B/14B 模型,也能尝试更稳的量化版本,是普通开发者较常见的起点。
64GB 以后,用户可以尝试更大的 MoE 或 30B 级模型,也可以给长上下文和多任务留空间。128GB 适合更大的实验范围,例如高量化大模型、多个模型版本对比、较长上下文和复杂本地工作流。但即使是 128GB,也仍然需要看模型权重、KV 缓存、后端和速度。
Metal、MLX 和 llama.cpp 的差异
Mac 上常见后端包括 llama.cpp Metal、MLX、Ollama 和 LM Studio。这些工具底层优化不同,同一个模型在不同后端上的速度可能不同。MoE 模型尤其依赖 kernel 实现,不能只用参数量推断速度。
因此推荐页面里的 tok/s 应该是保守估算或区间,而不是绝对承诺。用户真正需要的是一个筛选方向:哪些模型大概率能加载,哪些模型需要更高内存,哪些模型只是理论能跑但体验不稳。
为什么 128GB 应该解锁更大模型
如果 32GB、64GB 和 128GB 给出完全相同的质量优先推荐,通常说明排序算法没有正确利用容量变化。更大的统一内存应该允许更高参数量、更高量化或更长上下文的模型进入候选集。质量优先模式尤其应该体现这一点。
但“更大”也不是唯一目标。推荐系统需要在模型质量、任务匹配、运行方式、速度置信度和内存余量之间排序。128GB Mac 可以跑更大模型,不代表每个场景都应该无脑推荐最大模型;编程、通用、数学和视觉任务的最佳选择可能不同。
Mac 用户应该怎么选
普通用户可以先从均衡模式开始。如果结果都是完整 GPU/统一内存运行,说明配置比较稳;如果大量结果显示部分卸载或低置信速度,就需要降低量化、缩短上下文或选择更小模型。做编程任务时,模型的代码能力和上下文长度很重要;做视觉任务时,要确认模型确实是多模态模型。
Local LLM 的价值在于把这些判断做成可视化输入,而不是让用户在 Hugging Face 上一个个猜。博客文章负责解释原则,工具负责结合实时模型列表和用户硬件给出当前推荐。