Local LLM VRAM Guide

Da 6 GB, 8 GB, 12 GB, da 24 GB a 48 GB, spiegare come il volume dei parametri del modello, la versione quantizzata, la cache KV e l'overhead del sistema si combinano per determinare se può essere caricato.

Diamo prima un’occhiata alla conclusione: la memoria video non è l’unico collo di bottiglia

Per determinare se un modello locale di grandi dimensioni può essere eseguito, non è possibile limitarsi a guardare i parametri del modello, né solo i numeri della memoria grafica. Ciò che influenza realmente il caricamento sono i pesi del modello, il formato di quantizzazione, la cache KV, l'overhead del framework in esecuzione, l'utilizzo in background del sistema e se alcuni livelli devono essere scaricati nella memoria della CPU. Una versione Q4 del modello 7B potrebbe essere rilassata, una versione 14B Q8 sarà più compatta; la stessa memoria video da 24 GB, se il contesto viene portato da 4K a 32K, anche la cache KV consumerà lo spazio disponibile.

L'idea consigliata per il LLM locale è quella di esprimere prima un giudizio sulla eseguibilità, quindi ordinare in base all'utilizzo e alla qualità del modello. Dopo che l'utente ha inserito la memoria video, la memoria, il sistema e l'utilizzo, il backend stimerà l'occupazione del peso, la cache KV e il margine operativo. Se il modello richiede uno scaricamento parziale, la pagina apparirà come parzialmente scaricata, anziché essere "completamente eseguibile". Questo è importante per l'utente medio, perché essere in grado di caricare ed essere utilizzabile sono due cose diverse.

Da 6 GB a 8 GB: dai priorità ai modelli piccoli e alla quantizzazione bassa

La memoria video da 6 GB a 8 GB è più adatta per i modelli quantizzati Q4 o Q5 di 1B, 3B, 4B, 7B. Questa gamma può soddisfare domande e risposte leggere, spiegazione semplice del codice, riepilogo, traduzione e uso personale a bassa concorrenza, ma non è adatta per inserire al suo interno tutti i modelli di grandi dimensioni più diffusi. I modelli di visione, i modelli multimodali e le attività a lungo contesto arriveranno in cima più velocemente perché anche il codificatore di immagini e la cache KV occupano memoria.

Se l'utente ha solo 8 GB di memoria video, la pagina dei consigli dovrebbe essere più conservativa: consigliare piuttosto un modello piccolo che possa funzionare con la GPU completa, piuttosto che classificare un modello da 30 B in una forma parzialmente disinstallata. Lo scaricamento parziale può funzionare in alcuni scenari, ma la velocità e l'esperienza dipendono dalla CPU, dalla larghezza di banda della memoria, da PCIe, dal backend di inferenza e dal carico del sistema e non possono essere utilizzati come risposta di prima scelta per gli utenti ordinari.

Da 12 GB a 16 GB: il punto debole per la maggior parte degli utenti desktop

12 GB e 16 GB sono configurazioni comuni per molte schede grafiche di livello consumer, come RTX 3060 12 GB, RTX 4070 12 GB e RTX 4060 Ti 16 GB. Questa gamma di solito può coprire un lotto di versioni quantificate Q4/Q5 dei modelli da 7B a 14B e c'è spazio per opzioni di programmazione, domande e risposte generali e RAG leggero. Per gli utenti, la chiave non è perseguire il modello più grande, ma trovare una versione che possa funzionare in modo stabile, non sia troppo veloce e abbia una lunghezza di contesto sufficiente.

In questo intervallo, le scelte quantitative influenzeranno direttamente l’esperienza. Q4 è generalmente più facile da montare, Q5/Q6 è più coerente ma occupa più peso e Q8 è vicino all'alta qualità ma riduce notevolmente lo spazio per la testa. La pagina di LLM locale dovrebbe consentire all'utente di visualizzare la "memoria richiesta" e la "modalità di esecuzione" invece di fornire semplicemente il nome del modello. In questo modo, gli utenti sapranno perché i risultati consigliati sono classificati più in alto.

Da 24 GB a 48 GB: inizia a perseguire una qualità superiore e un contesto più lungo

24 GB di memoria video rappresentano uno spartiacque importante per il LLM locale. Consente agli utenti di provare modelli 14B, 27B, 30B, 32B più grandi o di eseguire modelli 7B/14B con una quantizzazione più elevata e contesti più lunghi. Al di sopra di 48 GB è più adatto per quantificazione di alta qualità, più spazio sperimentale, commutazione multi-modello e attività di contesto più lunghe.

Ma una memoria video più grande non significa ancora che tutti i modelli possano essere utilizzati facilmente. I parametri totali e i parametri di attivazione del modello MoE sono diversi. La stima della velocità dipende dai parametri attivi e dalla lettura della memoria; il modello visivo considera anche il codificatore dell'immagine; il contesto lungo aumenterà la cache KV. Il sistema di raccomandazione deve abbattere queste differenze e visualizzarle per evitare che gli utenti pensino erroneamente che "se la memoria video è abbastanza grande, deve essere veloce".

Quando è utile l'offload di memoria e CPU?

Quando la memoria video non è sufficiente ma la memoria di sistema è sufficiente, alcuni backend possono inserire alcuni livelli nella memoria della CPU. Ciò consente al modello di caricarsi, ma tende a rallentare, soprattutto se la scheda grafica discreta deve passare su PCIe. La memoria unificata di Apple Silicon non ha lo stesso cliff PCIe, ma è comunque influenzata dalla larghezza di banda della memoria, dal kernel Metal/MLX e dall'impronta in background.

Pertanto la pagina dovrebbe distinguere tra GPU completa, offload parziale e solo CPU. Ciò che gli utenti comuni devono sapere di più è: l'esecuzione completa della GPU di solito offre la migliore esperienza; in alternativa è possibile utilizzare lo scarico parziale; Solo la CPU è adatta principalmente per modelli di piccole dimensioni o test offline e non è adatta per esperienze di chat che prevedono un throughput elevato.

Come effettuare selezioni con Local LLM

Dopo aver inserito la memoria video e la memoria, controlla prima se i primi pochi sono esecuzioni complete della GPU, quindi guarda la versione quantizzata e l'intervallo di confidenza della velocità. Se al primo posto c'è la disinstallazione parziale, significa che ha un vantaggio in termini di qualità o popolarità di download, ma non è necessariamente la scelta quotidiana con la migliore esperienza. Gli utenti possono alternare tra "Qualità prima, Bilanciato, Contesto lungo" per osservare i cambiamenti nella classifica.

Per le pagine SEO, l’obiettivo dell’articolo non è memorizzare tutti i modelli per gli utenti, ma spiegare la logica decisionale e riportare gli utenti allo strumento consigliato. Dopo che i concetti di memoria video, quantizzazione, contesto e modalità operativa sono stati chiaramente spiegati, gli utenti possono inserire il proprio hardware nello strumento e i risultati ottenuti saranno credibili.

Quali modelli locali di grandi dimensioni possono essere eseguiti con memorie grafiche diverse?