A quantificação resolve o problema da memória
Grandes modelos locais geralmente não podem ser executados diretamente em placas gráficas de consumo com pesos FP16 completos, portanto, formatos de quantização como GGUF, AWQ e GPTQ compactarão os pesos em representações menores. Q4, Q5, Q6 e Q8 representam compensações de diferentes precisões e tamanhos. Quanto maior a precisão, mais estável será a qualidade e maior será a ocupação; quanto menor a precisão, menor a ocupação, mas pode perder estabilidade de raciocínio, desempenho de contexto prolongado ou capacidades de tarefas complexas.
Para o usuário médio, não há necessidade de dominar primeiro todos os detalhes da quantificação. Um julgamento mais prático é: sua memória de vídeo pode estar totalmente carregada? A sua tarefa é sensível à qualidade? Você precisa de um contexto longo? Essas três questões determinam se devemos favorecer Q4, Q5/Q6 ou Q8.
Q4: A escolha de entrada mais comum
As vantagens do Q4 são a baixa ocupação e a ampla faixa operacional. Muitos dos modelos 7B, 14B e até maiores são difíceis de instalar em hardware de desktop normal sem um Q4. O quarto trimestre costuma ser um ponto de partida razoável para bate-papo, resumo, explicações leves de código e recursos de modelo de exploração.
Sua desvantagem é que a perda de qualidade é mais óbvia e pode ser mais instável, especialmente em raciocínio complexo, matemática, geração de código longo e contextos multi-rodadas. Se o usuário busca "apenas correr", Q4 é uma boa escolha; se o usuário buscar uma saída estável, a prioridade deverá ser dada às configurações de memória gráfica Q5, Q6 ou superiores.
Q5 e Q6: Sobremesas de qualidade para a maioria das pessoas
Q5/Q6 geralmente é um compromisso melhor para uso a longo prazo. Eles ocupam mais espaço do que o Q4, mas são mais estáveis em qualidade para muitas tarefas e são especialmente adequados para programação, resumos longos de artigos, perguntas e respostas de conhecimento e cenários que exigem menos ilusão. Muitos usuários locais do LLM considerarão Q5_K_M ou Q6_K como sua escolha preferida para uso diário.
O modo de equalização do Local LLM deve ser mais tendencioso para este tipo de versão: nem escolher forçosamente o Q8 instável para qualidade, nem usar como padrão a quantização mais baixa para economizar memória. Depois que o usuário insere a memória de vídeo, a divisão da memória nos resultados recomendados pode ajudar a determinar se ainda há espaço para a quantização atual.
Q8: A qualidade é mais estável, mas a ocupação é maior
O Q8 está próximo de uma experiência de alta precisão e geralmente é adequado para dispositivos com maior memória gráfica ou quando os usuários optam explicitamente por priorizar a qualidade. A vantagem é que a perda de quantização é menor e a saída é mais estável; a desvantagem é que o uso da memória de vídeo está próximo do estado de baixa compactação, o que reduzirá o cache KV e a margem de execução.
Se o Q8 exigir descarregamento parcial para a memória da CPU, a experiência real pode não ser tão boa quanto uma versão menos quantizada, mas completa da GPU. Os sistemas de recomendação não podem ser classificados apenas pela precisão quantitativa, mas também devem considerar métodos operacionais, faixas de velocidade e usos do usuário.
Contexto longo altera a quantização ideal
Muitos usuários olham apenas para o peso do modelo e ignoram o cache KV. O cache KV aumenta significativamente à medida que o contexto passa de 4K para 32K e para 128K. Um modelo Q6 que pode rodar em 4K pode precisar fazer downgrade para Q4 ou mudar para um modelo menor em um contexto longo.
Portanto, o modo "contexto longo primeiro" não deve simplesmente recomendar o modelo maior, mas deve reter mais margem de memória. Para RAG, leitura longa de documentos e análise de base de código, o contexto de processamento estável é mais importante do que a qualidade teórica de uma única resposta.
Como entender as preferências no LLM local
A prioridade de qualidade tentará selecionar candidatos com maior qualidade, parâmetros maiores ou maior quantização; o balanceamento comprometerá entre qualidade, margem de memória e velocidade; O contexto longo selecionará de forma conservadora uma ocupação menor para evitar que o cache KV ocupe o espaço em execução.
É aqui que blogs e ferramentas devem trabalhar juntos. O artigo explica as compensações básicas de Q4/Q5/Q6/Q8. A ferramenta fornece a versão executável atual com base no hardware do usuário e nos dados do modelo Hugging Face, e aponta o link de download para a página do modelo correspondente.