Q4, Q5, Q6, Q8 Come dovrei scegliere la quantificazione?

La quantificazione GGUF più comune dell'utilizzo della memoria, della perdita di qualità e del compromesso di velocità aiuta gli utenti a comprendere le tre preferenze di priorità di qualità, equilibrio e contesto lungo.

La quantificazione risolve il problema della memoria

I modelli locali di grandi dimensioni di solito non possono essere eseguiti direttamente su schede grafiche di livello consumer con pesi FP16 completi, quindi formati di quantizzazione come GGUF, AWQ e GPTQ comprimeranno i pesi in rappresentazioni più piccole. Q4, Q5, Q6 e Q8 rappresentano compromessi tra diverse precisezze e dimensioni. Maggiore è la precisione, più stabile è la qualità e maggiore è l'occupazione; minore è la precisione, minore è l'occupazione, ma potrebbe perdere stabilità di ragionamento, prestazioni nel contesto lungo o capacità di attività complesse.

Per l'utente medio, non è necessario padroneggiare prima tutti i dettagli della quantificazione. Un giudizio più pratico è: la tua memoria video può essere completamente carica? La tua attività è sensibile alla qualità? Hai bisogno di un contesto lungo? Queste tre domande determinano se favorire Q4, Q5/Q6 o Q8.

Q4: La scelta di ingresso più comune

I vantaggi di Q4 sono la bassa occupazione e un ampio raggio operativo. Molti dei modelli 7B, 14B e anche più grandi sono difficili da inserire nell'hardware desktop normale senza un Q4. Il quarto trimestre è spesso un punto di partenza ragionevole per chat, riepilogo, spiegazioni leggere del codice e funzionalità del modello di esplorazione.

Il suo svantaggio è che la perdita di qualità è più evidente e potrebbe essere più instabile soprattutto in ragionamenti complessi, matematica, generazione di codici lunghi e contesti a più round. Se l'utente desidera "semplicemente correre", Q4 è una buona scelta; se l'utente ricerca un output stabile, la priorità dovrebbe essere data alle configurazioni di memoria grafica Q5, Q6 o superiori.

Q5 e Q6: dessert di qualità per la maggior parte delle persone

Q5/Q6 è solitamente un compromesso migliore per un uso a lungo termine. Occupano più spazio di Q4, ma sono di qualità più stabile per molte attività e sono particolarmente adatti per la programmazione, riassunti di articoli lunghi, domande e risposte sulla conoscenza e scenari che richiedono meno illusioni. Molti utenti LLM locali considereranno Q5_K_M o Q6_K come la scelta preferita per l'uso quotidiano.

La modalità di equalizzazione di Local LLM dovrebbe essere più sbilanciata verso questo tipo di versione: né scegliere forzatamente l'instabile Q8 per la qualità, né impostare automaticamente la quantizzazione più bassa per risparmiare memoria. Dopo che l'utente ha inserito la memoria video, la suddivisione della memoria nei risultati consigliati può aiutare a determinare se c'è ancora spazio per la quantizzazione corrente.

Q8: La qualità è più stabile ma l'occupazione è più elevata

Q8 è vicino ad un'esperienza di alta precisione ed è solitamente adatto a dispositivi con memoria grafica più grande o quando gli utenti scelgono esplicitamente di dare priorità alla qualità. Il vantaggio è che la perdita di quantizzazione è minore e l'uscita è più stabile; lo svantaggio è che l'utilizzo della memoria video è vicino allo stato di bassa compressione, il che ridurrà la cache KV e il margine di esecuzione.

Se Q8 richiede uno scarico parziale sulla memoria della CPU, l'esperienza effettiva potrebbe non essere buona quanto quella di una versione meno quantizzata ma con GPU completa. I sistemi di raccomandazione non possono essere ordinati solo in base all’accuratezza quantitativa, ma devono anche considerare i metodi operativi, gli intervalli di velocità e gli usi degli utenti.

Il contesto lungo modifica la quantizzazione ottimale

Molti utenti guardano solo il peso del modello e ignorano la cache KV. La cache KV aumenta in modo significativo quando il contesto passa da 4K a 32K a 128K. Un modello Q6 che può funzionare a 4K potrebbe dover eseguire il downgrade a Q4 o passare a un modello più piccolo in un contesto lungo.

Pertanto, la modalità "prima il contesto lungo" non dovrebbe semplicemente consigliare il modello più grande, ma dovrebbe mantenere più margine di memoria. Per RAG, lettura di documenti lunghi e analisi di base di codice, il contesto di elaborazione stabile è più importante della qualità teorica di una singola risposta.

Come comprendere le preferenze in LLM locale

La priorità della qualità proverà a selezionare candidati con qualità superiore, parametri più ampi o quantizzazione più elevata; il bilanciamento comprometterà tra qualità, margine di memoria e velocità; un contesto lungo selezionerà in modo conservativo un'occupazione più piccola per evitare che la cache KV consumi lo spazio in esecuzione.

È qui che blog e strumenti dovrebbero lavorare insieme. L'articolo spiega i compromessi di base del quarto/quinto trimestre/6 trimestre/8 trimestre. Lo strumento fornisce la versione eseguibile corrente in base all'hardware dell'utente e ai dati del modello Hugging Face e indirizza il collegamento per il download alla pagina del modello corrispondente.