Local LLM

博客中心

本地大模型博客

围绕用户会搜索的问题组织内容:显存能跑什么、Mac 怎么选模型、量化怎么选、编程和视觉模型怎么部署。每篇文章都回到同一个目标:帮用户判断自己的硬件适合哪个本地模型。

显存指南

不同显存能跑哪些本地大模型?

从 6GB、8GB、12GB、24GB 到 48GB,解释模型参数量、量化版本、KV 缓存和系统开销如何共同决定能否加载。

阅读文章

Apple 芯片

Apple 统一内存怎么影响本地 LLM?

解释 Mac 上为什么不能把总内存全部当显存,以及 16GB、32GB、64GB、128GB 机器适合怎样选择模型。

阅读文章

量化

Q4、Q5、Q6、Q8 量化应该怎么选?

比较常见 GGUF 量化的内存占用、质量损失和速度取舍,帮助用户理解质量优先、均衡、长上下文三种偏好。

阅读文章

编程模型

适合编程的本地 LLM 怎么选?

从代码生成、解释、重构和长上下文四个场景,说明为什么编程用途不能只看模型大小和下载量。

阅读文章

多模态

本地视觉模型和多模态模型怎么跑?

介绍视觉模型相比文本模型额外需要考虑的显存、图像编码器、上下文和推理后端支持问题。

阅读文章

工具选择

Ollama、LM Studio、llama.cpp 有什么区别?

面向普通用户解释三种常见本地运行方式的安装体验、模型管理、性能调优和适用人群。

阅读文章