Local LLM VRAM Guide

Erklären Sie von 6 GB, 8 GB, 12 GB, 24 GB bis 48 GB, wie Modellparametervolumen, quantisierte Version, KV-Cache und System-Overhead zusammenwirken, um zu bestimmen, ob es geladen werden kann.

Schauen wir uns zunächst die Schlussfolgerung an: Der Videospeicher ist nicht der einzige Engpass

Um festzustellen, ob ein lokales großes Modell ausgeführt werden kann, können Sie nicht nur die Modellparameter oder nur die Grafikspeicherzahlen betrachten. Was das Laden wirklich beeinflusst, sind Modellgewichte, Quantisierungsformat, KV-Cache, laufender Framework-Overhead, Systemhintergrundnutzung und ob einige Schichten in den CPU-Speicher ausgelagert werden müssen. Eine Q4-Version des 7B-Modells wird möglicherweise gelockert, eine 14B-Q8-Version wird straffer sein; Bei gleichem 24-GB-Videospeicher verbraucht der KV-Cache auch den verfügbaren Speicherplatz, wenn der Kontext von 4 KB auf 32 KB gezogen wird.

Die empfohlene Idee für Local LLM besteht darin, zunächst eine Beurteilung der Lauffähigkeit vorzunehmen und dann nach Nutzung und Modellqualität zu sortieren. Nachdem der Benutzer den Videospeicher, den Speicher, das System und die Nutzung eingegeben hat, schätzt das Backend die Gewichtsbelegung, den KV-Cache und den Laufspielraum. Wenn das Modell eine teilweise Auslagerung erfordert, wird die Seite als teilweise ausgelagert angezeigt und nicht als „vollständig ausführbar“. Dies ist für den durchschnittlichen Benutzer wichtig, denn laden zu können und nutzbar zu sein sind zwei verschiedene Dinge.

6 GB bis 8 GB: Priorisieren Sie kleine Modelle und niedrige Quantisierung

6 GB bis 8 GB Videospeicher eignen sich besser für quantisierte Q4- oder Q5-Modelle von 1B, 3B, 4B, 7B. Dieser Bereich kann einfache Fragen und Antworten, einfache Codeerklärungen, Zusammenfassungen, Übersetzungen und den persönlichen Gebrauch mit geringer Parallelität erfüllen, eignet sich jedoch nicht zum Unterbringen aller gängigen großen Modelle. Vision-Modelle, multimodale Modelle und Aufgaben mit langem Kontext erreichen schneller die Spitze, da der Bildencoder und der KV-Cache ebenfalls Speicher belegen.

Wenn der Benutzer nur über 8 GB Videospeicher verfügt, sollte die Empfehlungsseite konservativer sein: Empfehlen Sie lieber ein kleines Modell, das auf der vollen GPU laufen kann, anstatt ein 30-B-Modell in teilweise deinstallierter Form zu bewerten. Teilweises Offloading kann in einigen Szenarien funktionieren, aber Geschwindigkeit und Erfahrung hängen von der CPU, der Speicherbandbreite, PCIe, dem Inferenz-Backend und der Systemlast ab und können nicht als erste Wahl für normale Benutzer verwendet werden.

12 GB bis 16 GB: die ideale Größe für die meisten Desktop-Benutzer

12 GB und 16 GB sind gängige Konfigurationen für viele Consumer-Grafikkarten, wie z. B. RTX 3060 12 GB, RTX 4070 12 GB und RTX 4060 Ti 16 GB. Dieser Bereich kann normalerweise eine Reihe von Q4/Q5-quantifizierten Versionen der 7B- bis 14B-Modelle abdecken, und es gibt Raum für Optionen in der Programmierung, allgemeinen Fragen und Antworten und leichtgewichtigen RAG. Für Benutzer liegt der Schlüssel nicht darin, das größte Modell zu verfolgen, sondern eine Version zu finden, die stabil läuft, nicht zu schnell ist und über eine ausreichende Kontextlänge verfügt.

In diesem Bereich wirken sich quantitative Entscheidungen direkt auf das Erlebnis aus. Q4 ist im Allgemeinen einfacher zu montieren, Q5/Q6 ist gleichmäßiger, benötigt aber mehr Gewicht, und Q8 ist nahezu hochwertig, schränkt aber den Spielraum deutlich ein. Auf der Seite von Local LLM sollte der Benutzer „erforderlichen Speicher“ und „Betriebsmodus“ sehen können, anstatt nur einen Modellnamen anzugeben. Auf diese Weise erfahren Benutzer, warum die empfohlenen Ergebnisse höher eingestuft werden.

24 GB bis 48 GB: Streben Sie nach höherer Qualität und längerem Kontext

24 GB Videospeicher sind ein wichtiger Wendepunkt für lokales LLM. Es ermöglicht Benutzern, größere 14B-, 27B-, 30B-, 32B-Modelle auszuprobieren oder 7B/14B-Modelle in höherer Quantisierung und längeren Kontexten auszuführen. Über 48 GB eignen sich besser für qualitativ hochwertige Quantifizierung, mehr experimentellen Raum, Multi-Modell-Switching und längere Kontextaufgaben.

Ein größerer Videospeicher bedeutet jedoch nicht, dass alle Modelle problemlos verwendet werden können. Die Gesamtparameter und Aktivierungsparameter des MoE-Modells sind unterschiedlich. Die Geschwindigkeitsschätzung hängt von den aktiven Parametern und dem Speicherstand ab; Das visuelle Modell berücksichtigt auch den Bildencoder. Ein langer Kontext erhöht den KV-Cache. Das Empfehlungssystem muss diese Unterschiede aufschlüsseln und anzeigen, um zu verhindern, dass Benutzer fälschlicherweise denken: „Wenn der Videospeicher groß genug ist, muss er schnell sein.“

Wann ist Speicher- und CPU-Offload sinnvoll?

Wenn der Videospeicher nicht ausreicht, der Systemspeicher jedoch ausreicht, können einige Backends einige Schichten in den CPU-Speicher legen. Dadurch kann das Modell geladen werden, neigt jedoch dazu, langsamer zu werden, insbesondere wenn die separate Grafikkarte über PCIe betrieben werden muss. Der einheitliche Speicher von Apple Silicon weist nicht die gleiche PCIe-Klippe auf, wird aber dennoch von der Speicherbandbreite, dem Metal/MLX-Kernel und dem Hintergrundbedarf beeinflusst.

Daher sollte auf der Seite zwischen vollständiger GPU, teilweisem Offload und nur CPU unterschieden werden. Was normale Benutzer am meisten wissen müssen, ist: Die volle GPU-Ausführung bietet in der Regel die beste Erfahrung; Alternativ kann eine teilweise Entladung erfolgen; Nur CPU eignet sich hauptsächlich für kleine Modelle oder Offline-Tests und nicht für Chat-Erlebnisse, die einen hohen Durchsatz erwarten.

So treffen Sie eine Auswahl mit Local LLM

Überprüfen Sie nach Eingabe des Videospeichers und des Arbeitsspeichers zunächst, ob es sich bei den ersten paar um vollständige GPU-Läufe handelt, und sehen Sie sich dann die quantisierte Version und das Geschwindigkeitskonfidenzintervall an. Wenn die teilweise Deinstallation an erster Stelle steht, bedeutet dies, dass sie einen Vorteil in Bezug auf Qualität oder Download-Popularität hat, aber nicht unbedingt die tägliche Wahl mit der besten Erfahrung ist. Benutzer können zwischen „Quality First“, „Balanced“ und „Long Context“ wechseln, um Ranking-Änderungen zu beobachten.

Bei SEO-Seiten besteht das Ziel des Artikels nicht darin, den Nutzern alle Modelle einzuprägen, sondern die Entscheidungslogik zu erklären und die Nutzer wieder zum empfohlenen Tool zurückzubringen. Nachdem die Konzepte von Videospeicher, Quantisierung, Kontext und Betriebsmodus klar erklärt wurden, können Benutzer ihre eigene Hardware in das Tool eingeben und die erzielten Ergebnisse werden glaubwürdig sein.

Welche lokalen Großmodelle können mit unterschiedlichen Grafikspeichern betrieben werden?