Local LLM VRAM Guide

Van 6 GB, 8 GB, 12 GB, 24 GB tot 48 GB, leg uit hoe het modelparametervolume, de gekwantiseerde versie, KV-cache en systeemoverhead worden gecombineerd om te bepalen of het kan worden geladen.

Laten we eerst naar de conclusie kijken: videogeheugen is niet het enige knelpunt

Om te bepalen of een lokaal groot model kan draaien, kun je niet alleen naar de modelparameters kijken, en ook niet alleen naar de grafische geheugennummers. Wat het laden echt beïnvloedt zijn modelgewichten, kwantiseringsformaat, KV-cache, overhead van het raamwerk, systeemachtergrondgebruik en of sommige lagen naar CPU-geheugen moeten worden overgebracht. Een Q4-versie van het 7B-model mag dan ontspannen zijn, een 14B Q8-versie zal strak zijn; hetzelfde videogeheugen van 24 GB, als de context wordt getrokken van 4K naar 32K, zal de KV-cache ook de beschikbare ruimte opeten.

Het aanbevolen idee voor Local LLM is om eerst een beoordeling van de uitvoerbaarheid te maken en vervolgens te sorteren op gebruik en modelkwaliteit. Nadat de gebruiker het videogeheugen, het geheugen, het systeem en het gebruik heeft ingevoerd, schat de backend de gewichtsbezetting, KV-cache en lopende marge. Als het model een gedeeltelijke ontlading vereist, wordt de pagina weergegeven als gedeeltelijk ontladen, in plaats van deze te verpakken als "volledig uitvoerbaar". Dit is belangrijk voor de gemiddelde gebruiker, omdat laden en bruikbaar zijn twee verschillende dingen zijn.

6 GB tot 8 GB: geef prioriteit aan kleine modellen en lage kwantisering

6 GB tot 8 GB videogeheugen is meer geschikt voor Q4- of Q5-gekwantiseerde modellen van 1B, 3B, 4B, 7B. Dit bereik kan voldoen aan lichtgewicht vraag en antwoord, eenvoudige code-uitleg, samenvatting, vertaling en persoonlijk gebruik met weinig gelijktijdigheid, maar het is niet geschikt om alle populaire grote modellen erin te proppen. Visiemodellen, multimodale modellen en taken met een lange context zullen sneller de top bereiken omdat de afbeeldingsencoder en KV-cache ook geheugen in beslag nemen.

Als de gebruiker slechts 8 GB videogeheugen heeft, zou de aanbevelingspagina conservatiever moeten zijn: adviseer liever een klein model dat op de volledige GPU kan draaien, in plaats van een 30B-model in een gedeeltelijk niet-geïnstalleerde vorm te rangschikken. Gedeeltelijke offloading kan in sommige scenario's werken, maar de snelheid en ervaring zijn afhankelijk van de CPU, geheugenbandbreedte, PCIe, inferentie-backend en systeembelasting, en kunnen niet worden gebruikt als het eerste keuze-antwoord voor gewone gebruikers.

12 GB tot 16 GB: de beste plek voor de meeste desktopgebruikers

12 GB en 16 GB zijn gebruikelijke configuraties voor veel grafische kaarten voor consumenten, zoals RTX 3060 12 GB, RTX 4070 12 GB en RTX 4060 Ti 16 GB. Dit bereik kan doorgaans een reeks Q4/Q5-gekwantificeerde versies van 7B tot 14B-modellen omvatten, en er is ruimte voor opties op het gebied van programmeren, algemene vragen en antwoorden en lichtgewicht RAG. Voor gebruikers is de sleutel niet om het grootste model na te streven, maar om een versie te vinden die stabiel kan draaien, niet te snel is en voldoende contextlengte heeft.

Binnen dit bereik zullen kwantitatieve keuzes rechtstreeks van invloed zijn op de ervaring. Q4 is over het algemeen gemakkelijker te monteren, Q5/Q6 is consistenter maar neemt meer gewicht in beslag, en Q8 is bijna van hoge kwaliteit, maar beperkt de hoofdruimte aanzienlijk. Op de pagina van Local LLM zou de gebruiker "vereist geheugen" en "loopmodus" moeten zien in plaats van alleen een modelnaam op te geven. Op deze manier weten gebruikers waarom de aanbevolen resultaten hoger worden gerangschikt.

24 GB tot 48 GB: begin met het nastreven van hogere kwaliteit en een langere context

24 GB videogeheugen is een belangrijk keerpunt voor lokale LLM. Hiermee kunnen gebruikers grotere 14B-, 27B-, 30B-, 32B-modellen uitproberen of 7B/14B-modellen uitvoeren in hogere kwantisering en langere contexten. Boven 48 GB is meer geschikt voor kwantificering van hoge kwaliteit, meer experimentele ruimte, schakelen tussen meerdere modellen en langere contexttaken.

Maar een groter videogeheugen betekent nog steeds niet dat alle modellen gemakkelijk kunnen worden gebruikt. De totale parameters en activeringsparameters van het MoE-model zijn verschillend. De snelheidsschatting is afhankelijk van de actieve parameters en geheugenuitlezing; het visuele model houdt ook rekening met de beeldencoder; lange context zal de KV-cache vergroten. Het aanbevelingssysteem moet deze verschillen opsplitsen en weergeven om te voorkomen dat gebruikers ten onrechte denken dat "als het videogeheugen groot genoeg is, het snel moet zijn."

Wanneer is geheugen- en CPU-offload nuttig?

Wanneer het videogeheugen niet voldoende is, maar het systeemgeheugen voldoende, kunnen sommige backends enkele lagen in het CPU-geheugen plaatsen. Hierdoor kan het model worden geladen, maar heeft de neiging te vertragen, vooral als de afzonderlijke grafische kaart via PCIe moet gaan. Het uniforme geheugen van Apple Silicon heeft niet dezelfde PCIe-klif, maar wordt nog steeds beïnvloed door de geheugenbandbreedte, de Metal/MLX-kernel en de voetafdruk op de achtergrond.

De pagina moet dus onderscheid maken tussen volledige GPU, gedeeltelijke offload en alleen CPU. Wat gewone gebruikers vooral moeten weten is: volledige GPU-gebruik geeft meestal de beste ervaring; als alternatief kan gedeeltelijk lossen worden toegepast; Alleen CPU is vooral geschikt voor kleine modellen of offline testen, en is niet geschikt voor chatervaringen die een hoge doorvoer verwachten.

Selecties maken met Local LLM

Nadat u het videogeheugen en het geheugen hebt ingevoerd, controleert u eerst of de bovenste paar volledige GPU-runs zijn en kijkt u vervolgens naar de gekwantiseerde versie en het snelheidsbetrouwbaarheidsinterval. Als de eerste plaats gedeeltelijke verwijdering is, betekent dit dat het een voordeel heeft in kwaliteit of downloadpopulariteit, maar het is niet noodzakelijkerwijs de dagelijkse keuze met de beste ervaring. Gebruikers kunnen schakelen tussen "Kwaliteit eerst, Evenwichtig, Lange context" om rangschikkingsveranderingen te observeren.

Voor SEO-pagina's is het doel van het artikel niet om alle modellen voor gebruikers te onthouden, maar om de besluitvormingslogica uit te leggen en gebruikers terug te brengen naar de aanbevolen tool. Nadat de concepten videogeheugen, kwantisering, context en bedieningsmodus duidelijk zijn uitgelegd, kunnen gebruikers hun eigen hardware in de tool invoeren en zullen de verkregen resultaten geloofwaardig zijn.

Welke lokale grote modellen kunnen worden uitgevoerd met verschillende grafische geheugens?