Local LLM

Bloghub

Local LLM Blog

Praktische gidsen over VRAM, Mac, quantisatie, codeermodellen en lokale vision-modellen.

Gids voor videogeheugen

Welke lokale grote modellen kunnen worden uitgevoerd met verschillende grafische geheugens?

Van 6 GB, 8 GB, 12 GB, 24 GB tot 48 GB, leg uit hoe het modelparametervolume, de gekwantiseerde versie, KV-cache en systeemoverhead worden gecombineerd om te bepalen of het kan worden geladen.

Artikel lezen

Appel chip

Welke invloed heeft Apple Unified Memory op de lokale LLM?

Leg uit waarom het totale geheugen op de Mac niet kan worden gebruikt als videogeheugen, en hoe je het geschikte model kiest voor machines van 16 GB, 32 GB, 64 GB en 128 GB.

Artikel lezen

Kwantificeer

Q4, Q5, Q6, Q8 Hoe moet ik kwantificering kiezen?

De meer algemene GGUF-kwantificering van geheugengebruik, kwaliteitsverlies en snelheidsafweging helpt gebruikers de drie voorkeuren van kwaliteitsprioriteit, balans en lange context te begrijpen.

Artikel lezen

programmeermodel

Hoe kies je een lokale LLM die geschikt is om te programmeren?

Leg aan de hand van de vier scenario's van codegeneratie, interpretatie, reconstructie en lange context uit waarom programmeerdoeleinden niet alleen naar de modelgrootte en het downloadvolume kunnen kijken.

Artikel lezen

multimodaal

Hoe kunnen we een lokaal visiemodel en een multimodaal model uitvoeren?

Dit artikel introduceert de aanvullende problemen van grafisch geheugen, afbeeldingsencoder, context en back-end-ondersteuning voor redeneren waarmee rekening moet worden gehouden in visuele modellen in vergelijking met tekstmodellen.

Artikel lezen

Gereedschap selectie

Wat zijn de verschillen tussen Ollama, LM Studio en llama.cpp?

Leg aan gewone gebruikers de installatie-ervaring, het modelbeheer, het afstemmen van de prestaties en de toepasselijke groepen van drie veelgebruikte lokale hardloopmethoden uit.

Artikel lezen