Wie wirkt sich Apple Unified Memory auf lokales LLM aus?

Erklären Sie, warum der Gesamtspeicher auf dem Mac nicht als Videospeicher verwendet werden kann und wie Sie das geeignete Modell für 16-GB-, 32-GB-, 64-GB- und 128-GB-Maschinen auswählen.

Einheitlicher Speicher bedeutet nicht, dass „alle Modelle verwendet werden können“

Der einheitliche Speicher von Apple Silicon wird von CPU, GPU, System, Apps und Hintergrunddiensten verwendet. Der Vorteil besteht darin, dass CPU und GPU denselben Hochgeschwindigkeitsspeicher gemeinsam nutzen und die Bereitstellung vieler lokaler Modelltools einfacher ist als die herkömmlicher unabhängiger Grafikkarten. Dies bedeutet jedoch nicht, dass alle 32 GB, 64 GB oder 128 GB als Modellgewichtsspeicher genutzt werden können.

Bei der tatsächlichen Auswahl eines Modells müssen Sie macOS, Browser, IDEs, Inferenzdienste, KV-Caches und temporäre Tensoren berücksichtigen. Wenn ein 32-GB-Mac das Modell auf 28 GB gewichtet, scheint es, als würde es gerade noch reinpassen. Im tatsächlichen Betrieb kann es jedoch sein, dass der Speicher häufig komprimiert oder auf die Festplatte ausgelagert wird oder die Geschwindigkeit erheblich abnimmt. Local LLM schätzt den verfügbaren Speicherplatz im Mac-Modus konservativer ein.

Wofür eignen sich 16GB, 32GB, 64GB und 128GB?

Der 16-GB-Mac eignet sich besser für kleine Modelle und niedrige bis mittlere Quantisierung, z. B. die Q4/Q5-Versionen von 3B, 4B und 7B. Es kann einfachen Chat, Zusammenfassung, Übersetzung und einfache Codeunterstützung erfüllen, ist jedoch nicht für lange Kontexte oder visuelle Modelle geeignet. 32 GB können mehr 7B/14B-Modelle abdecken und auch stabilere quantisierte Versionen ausprobieren, was ein üblicher Ausgangspunkt für normale Entwickler ist.

Nach 64 GB können Benutzer größere MoE- oder 30-B-Modelle ausprobieren, die auch Platz für lange Kontexte und Multitasking lassen. 128 GB eignen sich für größere Experimentierumfänge, wie z. B. stark quantisierte große Modelle, Vergleiche mehrerer Modellversionen, lange Kontexte und komplexe lokale Arbeitsabläufe. Aber selbst bei 128 GB müssen Sie immer noch auf Modellgewichte, KV-Cache, Backend und Geschwindigkeit achten.

Unterschiede zwischen Metal, MLX und llama.cpp

Zu den gängigen Backends auf dem Mac gehören llama.cpp Metal, MLX, Ollama und LM Studio. Die zugrunde liegenden Optimierungen dieser Tools sind unterschiedlich und die Geschwindigkeit desselben Modells auf verschiedenen Backends kann unterschiedlich sein. Das MoE-Modell ist insbesondere auf die Kernel-Implementierung angewiesen, und die Geschwindigkeit kann nicht allein aus Parametermengen abgeleitet werden.

Daher sollten die Token auf der Empfehlungsseite eine konservative Schätzung oder Spanne und kein absolutes Versprechen sein. Was Benutzer wirklich brauchen, ist eine Screening-Richtung: Welche Modelle können mit hoher Wahrscheinlichkeit geladen werden, welche Modelle benötigen mehr Speicher und welche Modelle können nur theoretisch ausgeführt werden, haben aber eine instabile Erfahrung.

Warum 128 GB das größere Modell freischalten sollten

Wenn 32 GB, 64 GB und 128 GB genau die gleiche Qualität-zuerst-Empfehlung ergeben, bedeutet dies normalerweise, dass der Sortieralgorithmus die Kapazitätsänderung nicht richtig ausnutzt. Ein größerer einheitlicher Speicher sollte es Modellen mit höherer Parameteranzahl, höherer Quantisierung oder längerem Kontext ermöglichen, in den Kandidatensatz aufgenommen zu werden. Insbesondere Quality-First-Modelle sollten dies widerspiegeln.

Aber „größer“ ist auch nicht das einzige Ziel. Empfehlungssysteme müssen zwischen Modellqualität, Aufgabenübereinstimmung, Ausführungsmodus, Geschwindigkeitskonfidenz und Speichermarge einordnen. Auf einem 128-GB-Mac können größere Modelle ausgeführt werden. Dies bedeutet jedoch nicht, dass das größte Modell für jedes Szenario blind empfohlen werden sollte. Die besten Möglichkeiten für Programmier-, allgemeine, mathematische und visuelle Aufgaben können unterschiedlich sein.

Was sollten Mac-Benutzer wählen?

Normale Benutzer können mit dem ausgeglichenen Modus beginnen. Wenn die Ergebnisse alle Voll-GPU-/Unified-Memory-Läufe sind, ist die Konfiguration stabil; Wenn eine große Anzahl von Ergebnissen teilweises Offloading oder eine niedrige Konfidenzgeschwindigkeit aufweist, müssen Sie die Quantisierung reduzieren, den Kontext verkürzen oder ein kleineres Modell wählen. Bei Programmieraufgaben sind die Codefähigkeiten und die Kontextlänge des Modells wichtig; Stellen Sie bei visuellen Aufgaben sicher, dass es sich bei dem Modell tatsächlich um ein multimodales Modell handelt.

Der Wert von Local LLM liegt darin, diese Urteile in visuelle Eingaben umzuwandeln, anstatt die Benutzer einzeln auf Hugging Face raten zu lassen. Der Blogbeitrag erklärt die Prinzipien und das Tool kombiniert die Live-Modellliste mit der Hardware des Benutzers, um aktuelle Empfehlungen zu geben.