Local LLM

Blog-Zentrale

Local LLM Blog

Praxisnahe Leitfäden zu VRAM, Mac, Quantisierung, Coding-Modellen und lokalen Vision-Modellen.

Anleitung zum Videospeicher

Welche lokalen Großmodelle können mit unterschiedlichen Grafikspeichern betrieben werden?

Erklären Sie von 6 GB, 8 GB, 12 GB, 24 GB bis 48 GB, wie Modellparametervolumen, quantisierte Version, KV-Cache und System-Overhead zusammenwirken, um zu bestimmen, ob es geladen werden kann.

Artikel lesen

Apple-Chip

Wie wirkt sich Apple Unified Memory auf lokales LLM aus?

Erklären Sie, warum der Gesamtspeicher auf dem Mac nicht als Videospeicher verwendet werden kann und wie Sie das geeignete Modell für 16-GB-, 32-GB-, 64-GB- und 128-GB-Maschinen auswählen.

Artikel lesen

Quantifizieren

Q4, Q5, Q6, Q8 Wie soll ich die Quantifizierung wählen?

Die häufigere GGUF-Quantifizierung von Speichernutzung, Qualitätsverlust und Geschwindigkeitskompromiss hilft Benutzern, die drei Präferenzen Qualitätspriorität, Ausgewogenheit und langer Kontext zu verstehen.

Artikel lesen

Programmiermodell

Wie wählt man ein lokales LLM aus, das für die Programmierung geeignet ist?

Erklären Sie anhand der vier Szenarien Codegenerierung, Interpretation, Rekonstruktion und langer Kontext, warum Programmierzwecke nicht nur die Modellgröße und das Downloadvolumen berücksichtigen können.

Artikel lesen

multimodal

Wie führt man ein lokales Visionsmodell und ein multimodales Modell aus?

In diesem Artikel werden die zusätzlichen Probleme des Grafikspeichers, des Bildencoders, des Kontexts und der Back-End-Unterstützung für Argumente vorgestellt, die bei visuellen Modellen im Vergleich zu Textmodellen berücksichtigt werden müssen.

Artikel lesen

Werkzeugauswahl

Was sind die Unterschiede zwischen Ollama, LM Studio und llama.cpp?

Erklären Sie normalen Benutzern das Installationserlebnis, die Modellverwaltung, die Leistungsoptimierung und die anwendbaren Gruppen der drei gängigen lokalen Ausführungsmethoden.

Artikel lesen