Como o Apple Unified Memory afeta o LLM local?

Explique por que a memória total do Mac não pode ser usada como memória de vídeo e como escolher o modelo adequado para máquinas de 16 GB, 32 GB, 64 GB e 128 GB.

Memória unificada não significa “todos os modelos podem ser usados”

A memória unificada do Apple Silicon é usada pela CPU, GPU, sistema, aplicativos e serviços em segundo plano. Sua vantagem é que a CPU e a GPU compartilham a mesma memória de alta velocidade e a experiência de implantação de muitas ferramentas de modelo local é mais simples do que a das placas gráficas independentes tradicionais; mas isso não significa que todos os 32 GB, 64 GB ou 128 GB possam ser usados como espaço de peso do modelo.

Ao selecionar um modelo, você precisa deixar espaço para macOS, navegadores, IDEs, serviços de inferência, caches KV e tensores temporários. Se um Mac de 32 GB pesar o modelo para 28 GB, pode parecer que ele cabe perfeitamente. No entanto, na operação real, a memória pode ser frequentemente compactada, trocada para disco ou a velocidade pode cair significativamente. O LLM local estima o espaço disponível de forma mais conservadora no modo Mac.

Para que são adequados 16 GB, 32 GB, 64 GB e 128 GB?

O Mac de 16 GB é mais adequado para modelos pequenos e de quantização baixa a média, como as versões Q4/Q5 de 3B, 4B e 7B. Ele pode satisfazer bate-papo leve, resumo, tradução e assistência de código simples, mas não é adequado para contexto longo ou modelos visuais. 32 GB podem cobrir mais modelos 7B/14B e também podem tentar versões quantizadas mais estáveis, que é um ponto de partida comum para desenvolvedores comuns.

Após 64 GB, os usuários podem experimentar modelos maiores de MoE ou 30B, que também podem deixar espaço para contextos longos e multitarefa. 128 GB é adequado para escopos de experimentos maiores, como modelos grandes altamente quantizados, comparações de versões de vários modelos, contextos longos e fluxos de trabalho locais complexos. Mas mesmo com 128 GB, você ainda precisa observar o peso do modelo, o cache KV, o back-end e a velocidade.

Diferenças entre Metal, MLX e llama.cpp

Back-ends comuns no Mac incluem llama.cpp Metal, MLX, Ollama e LM Studio. As otimizações subjacentes dessas ferramentas são diferentes e a velocidade do mesmo modelo em back-ends diferentes pode ser diferente. O modelo MoE depende particularmente da implementação do kernel, e a velocidade não pode ser inferida apenas usando quantidades de parâmetros.

Portanto, os tok/s na página de recomendação devem ser uma estimativa ou intervalo conservador, e não uma promessa absoluta. O que os usuários realmente precisam é de uma direção de triagem: quais modelos podem ser carregados com alta probabilidade, quais modelos requerem mais memória e quais modelos só podem ser executados teoricamente, mas têm uma experiência instável.

Por que 128 GB devem desbloquear o modelo maior

Se 32 GB, 64 GB e 128 GB fornecerem exatamente a mesma recomendação de qualidade, isso geralmente significa que o algoritmo de classificação não está aproveitando adequadamente a mudança de capacidade. Uma memória unificada maior deve permitir que modelos com contagens de parâmetros mais altas, quantização mais alta ou contexto mais longo entrem no conjunto de candidatos. Os modelos que priorizam a qualidade, em particular, devem refletir isso.

Mas “maior” também não é o único objetivo. Os sistemas de recomendação precisam ser classificados entre qualidade do modelo, correspondência de tarefas, modo de execução, confiança na velocidade e margem de memória. Um Mac de 128 GB pode rodar modelos maiores, mas isso não significa que o modelo maior deva ser recomendado cegamente para todos os cenários; as melhores escolhas para tarefas de programação, gerais, matemáticas e visuais podem ser diferentes.

O que os usuários de Mac devem escolher?

Usuários comuns podem começar com o modo balanceado. Se os resultados forem execuções completas de GPU/memória unificada, a configuração será estável; se um grande número de resultados mostrar descarregamento parcial ou baixa velocidade de confiança, será necessário reduzir a quantização, encurtar o contexto ou escolher um modelo menor. Ao realizar tarefas de programação, os recursos de código e o comprimento do contexto do modelo são importantes; ao realizar tarefas visuais, certifique-se de que o modelo seja realmente um modelo multimodal.

O valor do LLM Local reside em transformar esses julgamentos em informações visuais, em vez de permitir que os usuários adivinhem um por um no Hugging Face. A postagem do blog explica os princípios e a ferramenta combina a lista de modelos ativos com o hardware do usuário para fornecer recomendações atuais.