Local LLM

Central do blog

Blog Local LLM

Guias práticos sobre VRAM, Mac, quantização, modelos de código e modelos locais de visão.

Guia de memória de vídeo

Quais grandes modelos locais podem ser executados com diferentes memórias gráficas?

De 6 GB, 8 GB, 12 GB, 24 GB a 48 GB, explique como o volume dos parâmetros do modelo, a versão quantizada, o cache KV e a sobrecarga do sistema se combinam para determinar se ele pode ser carregado.

Ler artigo

Chip de maçã

Como o Apple Unified Memory afeta o LLM local?

Explique por que a memória total do Mac não pode ser usada como memória de vídeo e como escolher o modelo adequado para máquinas de 16 GB, 32 GB, 64 GB e 128 GB.

Ler artigo

Quantificar

Q4, Q5, Q6, Q8 Como devo escolher a quantificação?

A quantificação GGUF mais comum de uso de memória, perda de qualidade e compensação de velocidade ajuda os usuários a compreender as três preferências de prioridade de qualidade, equilíbrio e contexto longo.

Ler artigo

modelo de programação

Como escolher um LLM local adequado para programação?

A partir dos quatro cenários de geração de código, interpretação, reconstrução e contexto longo, explique por que os propósitos de programação não podem olhar apenas para o tamanho do modelo e o volume de download.

Ler artigo

multimodal

Como executar o modelo de visão local e o modelo multimodal?

Este artigo apresenta questões adicionais de memória gráfica, codificador de imagem, contexto e suporte de back-end de raciocínio que precisam ser considerados em modelos visuais em comparação com modelos de texto.

Ler artigo

Seleção de ferramenta

Quais são as diferenças entre Ollama, LM Studio e llama.cpp?

Explique aos usuários comuns a experiência de instalação, gerenciamento de modelo, ajuste de desempenho e grupos aplicáveis ​​de três métodos de execução locais comuns.

Ler artigo