Q4, Q5, Q6, Q8 Wie soll ich die Quantifizierung wählen?

Die häufigere GGUF-Quantifizierung von Speichernutzung, Qualitätsverlust und Geschwindigkeitskompromiss hilft Benutzern, die drei Präferenzen Qualitätspriorität, Ausgewogenheit und langer Kontext zu verstehen.

Die Quantifizierung löst das Gedächtnisproblem

Lokale große Modelle können normalerweise nicht direkt auf Consumer-Grafikkarten mit voller FP16-Gewichtung ausgeführt werden, daher komprimieren Quantisierungsformate wie GGUF, AWQ und GPTQ die Gewichte in kleinere Darstellungen. Q4, Q5, Q6 und Q8 stellen Kompromisse unterschiedlicher Genauigkeit und Größe dar. Je höher die Genauigkeit, desto stabiler die Qualität und desto höher die Auslastung. Je geringer die Genauigkeit, desto geringer die Belegung, aber es kann zu Einbußen bei der Argumentationsstabilität, der Leistung bei langen Kontexten oder bei der Fähigkeit zu komplexen Aufgaben kommen.

Für den durchschnittlichen Benutzer ist es nicht erforderlich, zunächst alle Details der Quantifizierung zu beherrschen. Ein praktischeres Urteil lautet: Kann Ihr Videospeicher vollständig geladen werden? Ist Ihre Aufgabe qualitätssensibel? Benötigen Sie einen langen Kontext? Diese drei Fragen bestimmen, ob Q4, Q5/Q6 oder Q8 bevorzugt wird.

F4: Die häufigste Eintragswahl

Die Vorteile von Q4 sind die geringe Belegung und die große Reichweite. Viele der 7B-, 14B- und noch größeren Modelle sind ohne Q4 nur schwer in normale Desktop-Hardware zu integrieren. Q4 ist oft ein sinnvoller Ausgangspunkt für Chat, Zusammenfassungen, einfache Code-Erklärungen und Erkundungsmodellfunktionen.

Der Nachteil besteht darin, dass der Qualitätsverlust offensichtlicher ist und insbesondere bei komplexer Argumentation, Mathematik, langer Codegenerierung und Mehrrundenkontexten instabiler sein kann. Wenn der Benutzer „einfach laufen“ möchte, ist Q4 eine gute Wahl; Wenn der Benutzer eine stabile Ausgabe anstrebt, sollte den Grafikspeicherkonfigurationen Q5, Q6 oder höher Vorrang eingeräumt werden.

Frage 5 und Frage 6: Hochwertige Desserts für die meisten Menschen

Q5/Q6 ist normalerweise ein besserer Kompromiss für den Langzeitgebrauch. Sie nehmen mehr Platz ein als Q4, sind aber für viele Aufgaben qualitativ stabiler und eignen sich besonders für die Programmierung, lange Artikelzusammenfassungen, Wissensfragen und -antworten sowie Szenarien, die weniger Illusionen erfordern. Viele lokale LLM-Benutzer werden Q5_K_M oder Q6_K als ihre bevorzugte Wahl für den täglichen Gebrauch betrachten.

Der Entzerrungsmodus von Local LLM sollte stärker auf diese Art von Version ausgerichtet sein: Wählen Sie weder zwangsweise den instabilen Q8 für die Qualität, noch verwenden Sie standardmäßig die niedrigste Quantisierung, um Speicher zu sparen. Nachdem der Benutzer den Videospeicher eingegeben hat, kann die Speicheraufteilung in den empfohlenen Ergebnissen dabei helfen, festzustellen, ob noch Platz für die aktuelle Quantisierung vorhanden ist.

F8: Die Qualität ist stabiler, aber die Auslastung ist höher

Q8 kommt einem hochpräzisen Erlebnis nahe und eignet sich normalerweise für Geräte mit größerem Grafikspeicher oder wenn Benutzer explizit Wert auf Qualität legen. Der Vorteil besteht darin, dass der Quantisierungsverlust geringer und die Ausgabe stabiler ist; Der Nachteil besteht darin, dass die Videospeichernutzung nahe am Zustand niedriger Komprimierung liegt, wodurch der KV-Cache und der Laufspielraum verringert werden.

Wenn Q8 eine teilweise Auslagerung in den CPU-Speicher erfordert, ist das tatsächliche Erlebnis möglicherweise nicht so gut wie bei einer weniger quantisierten, aber vollständig auf der GPU ausgeführten Version. Empfehlungssysteme können nicht nur nach quantitativer Genauigkeit sortiert werden, sondern müssen auch Betriebsmethoden, Geschwindigkeitsbereiche und Benutzernutzungen berücksichtigen.

Lange Kontextänderungen optimale Quantisierung

Viele Benutzer schauen nur auf das Modellgewicht und ignorieren den KV-Cache. Der KV-Cache erhöht sich erheblich, wenn der Kontext von 4 KB über 32 KB auf 128 KB steigt. Ein Q6-Modell, das mit 4K ausgeführt werden kann, muss im Langzeitkontext möglicherweise auf Q4 heruntergestuft oder auf ein kleineres Modell umgestellt werden.

Daher sollte der „Long Context First“-Modus nicht einfach das größte Modell empfehlen, sondern mehr Speicherreserven beibehalten. Für RAG, das Lesen langer Dokumente und die Codebasisanalyse ist ein stabiler Verarbeitungskontext wichtiger als die theoretische Qualität einer einzelnen Antwort.

So verstehen Sie Präferenzen in Local LLM

Bei der Qualitätspriorität wird versucht, Kandidaten mit höherer Qualität, größeren Parametern oder höherer Quantisierung auszuwählen. Beim Ausgleich kommt es zu Kompromissen zwischen Qualität, Speicherreserve und Geschwindigkeit. Langer Kontext wählt konservativ eine kleinere Belegung aus, um zu verhindern, dass der KV-Cache den laufenden Speicherplatz verschlingt.

Hier sollten Blogs und Tools zusammenarbeiten. Der Artikel erläutert die grundlegenden Kompromisse von Q4/Q5/Q6/Q8. Das Tool stellt die aktuell ausführbare Version basierend auf der Hardware des Benutzers und den Hugging Face-Modelldaten bereit und verweist über den Download-Link auf die entsprechende Modellseite.