Vejamos primeiro a conclusão: a memória de vídeo não é o único gargalo
Para determinar se um modelo local grande pode ser executado, você não pode apenas observar os parâmetros do modelo, nem apenas os números da memória gráfica. O que realmente afeta o carregamento são os pesos do modelo, o formato de quantização, o cache KV, a sobrecarga da estrutura em execução, o uso em segundo plano do sistema e se algumas camadas precisam ser descarregadas para a memória da CPU. Uma versão Q4 do modelo 7B pode ser relaxada, uma versão 14B Q8 será apertada; a mesma memória de vídeo de 24 GB, se o contexto for puxado de 4K para 32K, o cache KV também consumirá o espaço disponível.
A ideia recomendada para o Local LLM é primeiro fazer um julgamento de capacidade de execução e, em seguida, classificar por uso e qualidade do modelo. Depois que o usuário inserir a memória de vídeo, memória, sistema e uso, o backend estimará a ocupação do peso, cache KV e margem de execução. Se o modelo exigir descarregamento parcial, a página aparecerá como parcialmente descarregada, em vez de envolvê-la como "completamente executável". Isso é importante para o usuário médio, porque ser capaz de carregar e ser utilizável são duas coisas diferentes.
6GB a 8GB: Priorize modelos pequenos e baixa quantização
A memória de vídeo de 6 GB a 8 GB é mais adequada para modelos quantizados Q4 ou Q5 de 1B, 3B, 4B, 7B. Esse intervalo pode satisfazer perguntas e respostas leves, explicação simples de código, resumo, tradução e uso pessoal de baixa simultaneidade, mas não é adequado para incluir todos os grandes modelos populares nele. Modelos de visão, modelos multimodais e tarefas de contexto longo chegarão ao topo mais rapidamente porque o codificador de imagem e o cache KV também ocupam memória.
Se o usuário tiver apenas 8 GB de memória de vídeo, a página de recomendação deve ser mais conservadora: em vez disso, recomende um modelo pequeno que possa rodar na GPU completa, em vez de classificar um modelo de 30B em uma forma parcialmente desinstalada. O descarregamento parcial pode funcionar em alguns cenários, mas a velocidade e a experiência dependem da CPU, largura de banda da memória, PCIe, backend de inferência e carga do sistema, e não pode ser usada como resposta de primeira escolha para usuários comuns.
12 GB a 16 GB: o ponto ideal para a maioria dos usuários de desktop
12 GB e 16 GB são configurações comuns para muitas placas gráficas de consumo, como RTX 3060 12 GB, RTX 4070 12 GB e RTX 4060 Ti 16 GB. Essa faixa geralmente pode cobrir um lote de versões quantificadas Q4/Q5 dos modelos 7B a 14B, e há espaço para opções em programação, perguntas e respostas gerais e RAG leve. Para os usuários, a chave não é buscar o modelo maior, mas encontrar uma versão que possa rodar de forma estável, não seja muito rápida e tenha comprimento de contexto suficiente.
Nesta faixa, as escolhas quantitativas afetarão diretamente a experiência. O Q4 é geralmente mais fácil de encaixar, o Q5/Q6 é mais consistente, mas ocupa mais peso, e o Q8 está próximo da alta qualidade, mas reduz significativamente o espaço livre. A página do LLM Local deve permitir que o usuário veja “memória necessária” e “modo de execução” em vez de apenas fornecer um nome de modelo. Dessa forma, os usuários saberão por que os resultados recomendados têm classificação mais elevada.
24 GB a 48 GB: comece a buscar maior qualidade e contexto mais longo
24 GB de memória de vídeo é um divisor de águas importante para o LLM local. Ele permite que os usuários experimentem modelos maiores de 14B, 27B, 30B, 32B ou executem modelos 7B/14B em maior quantização e contextos mais longos. Acima de 48 GB é mais adequado para quantificação de alta qualidade, mais espaço experimental, comutação multimodelo e tarefas de contexto mais longas.
Mas maior memória de vídeo ainda não significa que todos os modelos possam ser usados facilmente. Os parâmetros totais e os parâmetros de ativação do modelo MoE são diferentes. A estimativa da velocidade depende dos parâmetros ativos e da leitura da memória; o modelo visual considera também o codificador de imagem; contexto longo aumentará o cache KV. O sistema de recomendação precisa quebrar essas diferenças e exibi-las para evitar que os usuários pensem erroneamente que “se a memória de vídeo for grande o suficiente, ela deve ser rápida”.
Quando o descarregamento de memória e CPU é útil?
Quando a memória de vídeo não é suficiente, mas a memória do sistema é suficiente, alguns backends podem colocar algumas camadas na memória da CPU. Isso permite que o modelo carregue, mas tende a ficar lento, especialmente se a placa gráfica discreta precisar passar por PCIe. A memória unificada do Apple Silicon não tem o mesmo penhasco PCIe, mas ainda é afetada pela largura de banda da memória, pelo kernel Metal/MLX e pela pegada de fundo.
Portanto, a página deve distinguir entre GPU completa, descarregamento parcial e apenas CPU. O que os usuários comuns mais precisam saber é: a execução completa da GPU geralmente oferece a melhor experiência; o descarregamento parcial pode ser utilizado como alternativa; Apenas a CPU é adequada principalmente para modelos pequenos ou testes off-line e não é adequada para experiências de bate-papo que exigem alto rendimento.
Como fazer seleções com Local LLM
Depois de inserir a memória de vídeo e a memória, primeiro verifique se os primeiros são execuções completas da GPU e, em seguida, observe a versão quantizada e o intervalo de confiança de velocidade. Se o primeiro lugar for a desinstalação parcial, significa que ela tem vantagem em qualidade ou popularidade de download, mas não é necessariamente a escolha diária com a melhor experiência. Os usuários podem alternar entre "Qualidade em primeiro lugar, contexto longo e equilibrado" para observar as mudanças na classificação.
Para páginas SEO, o objetivo do artigo não é memorizar todos os modelos para os usuários, mas sim explicar a lógica de tomada de decisão e trazer os usuários de volta à ferramenta recomendada. Após a explicação clara dos conceitos de memória de vídeo, quantização, contexto e modo de operação, o usuário poderá inserir seu próprio hardware na ferramenta e os resultados obtidos serão credíveis.