Welke invloed heeft Apple Unified Memory op de lokale LLM?

Leg uit waarom het totale geheugen op de Mac niet kan worden gebruikt als videogeheugen, en hoe je het geschikte model kiest voor machines van 16 GB, 32 GB, 64 GB en 128 GB.

Uniform geheugen betekent niet dat “alle modellen kunnen worden gebruikt”

Het uniforme geheugen van Apple Silicon wordt gebruikt door de CPU, GPU, het systeem, apps en achtergrondservices. Het voordeel is dat de CPU en GPU hetzelfde hogesnelheidsgeheugen delen, en dat de implementatie-ervaring van veel lokale modeltools eenvoudiger is dan die van traditionele, onafhankelijke grafische kaarten; maar dit betekent niet dat alle 32 GB, 64 GB of 128 GB als modelgewichtruimte kunnen worden gebruikt.

Wanneer u daadwerkelijk een model selecteert, moet u rekening houden met macOS, browsers, IDE's, inferentieservices, KV-caches en tijdelijke tensoren. Als een Mac van 32 GB het model op 28 GB weegt, lijkt het misschien alsof hij er gewoon in past. Bij feitelijk gebruik kan het geheugen echter vaak worden gecomprimeerd, naar schijf worden gewisseld, of kan de snelheid aanzienlijk dalen. Lokale LLM schat de beschikbare ruimte conservatiever in in de Mac-modus.

Waar zijn 16GB, 32GB, 64GB en 128GB geschikt voor?

Mac van 16 GB is meer geschikt voor kleine modellen en lage tot gemiddelde kwantisering, zoals de Q4/Q5-versies van 3B, 4B en 7B. Het kan voldoen aan lichtgewicht chat-, samenvatting-, vertaling- en eenvoudige code-ondersteuning, maar is niet geschikt voor lange context- of visuele modellen. Met 32 GB kunnen meer 7B/14B-modellen worden gedekt, en kunnen ook stabielere gekwantiseerde versies worden geprobeerd, wat een gebruikelijk uitgangspunt is voor gewone ontwikkelaars.

Na 64 GB kunnen gebruikers grotere MoE- of 30B-modellen uitproberen, waardoor er ook ruimte overblijft voor lange contexten en multitasking. 128 GB is geschikt voor grotere experimenten, zoals sterk gekwantiseerde grote modellen, vergelijkingen van meerdere modelversies, lange contexten en complexe lokale workflows. Maar zelfs met 128 GB moet je nog steeds kijken naar modelgewichten, KV-cache, backend en snelheid.

Verschillen tussen Metal, MLX en lama.cpp

Veel voorkomende backends op Mac zijn llama.cpp Metal, MLX, Ollama en LM Studio. De onderliggende optimalisaties van deze tools zijn verschillend en de snelheid van hetzelfde model op verschillende backends kan verschillend zijn. Het MoE-model is vooral afhankelijk van kernelimplementatie, en de snelheid kan niet worden afgeleid uit alleen parametergrootheden.

Daarom moeten de tok(s) op de aanbevelingspagina een conservatieve schatting of bereik zijn, en geen absolute belofte. Wat gebruikers echt nodig hebben is een screeningrichting: welke modellen met een grote waarschijnlijkheid kunnen worden geladen, welke modellen meer geheugen nodig hebben, en welke modellen alleen theoretisch kunnen draaien maar een onstabiele ervaring hebben.

Waarom 128 GB het grotere model zou moeten ontgrendelen

Als 32 GB, 64 GB en 128 GB exact dezelfde aanbeveling voor kwaliteit eerst geven, betekent dit meestal dat het sorteeralgoritme niet goed profiteert van de capaciteitsverandering. Een groter verenigd geheugen zou het mogelijk moeten maken dat modellen met een hoger aantal parameters, een hogere kwantisering of een langere context de kandidatenset kunnen betreden. Vooral modellen waarbij kwaliteit voorop staat, moeten dit weerspiegelen.

Maar ‘groter’ is ook niet het enige doel. Aanbevelingssystemen moeten een rangorde maken tussen modelkwaliteit, taakafstemming, uitvoeringsmodus, snelheidsbetrouwbaarheid en geheugenmarge. Op een Mac van 128 GB kunnen grotere modellen draaien, maar dat betekent niet dat voor elk scenario blindelings het grootste model moet worden aanbevolen; de beste keuzes voor programmeer-, algemene, wiskundige en visuele taken kunnen verschillen.

Wat moeten Mac-gebruikers kiezen?

Gewone gebruikers kunnen beginnen met de gebalanceerde modus. Als de resultaten allemaal volledige GPU/unified memory-runs zijn, is de configuratie stabiel; als een groot aantal resultaten een gedeeltelijke ontlading of een lage betrouwbaarheidssnelheid vertoont, moet u de kwantisering verminderen, de context inkorten of een kleiner model kiezen. Bij het uitvoeren van programmeertaken zijn de codemogelijkheden en de contextlengte van het model belangrijk; Zorg er bij het uitvoeren van visuele taken voor dat het model inderdaad een multimodaal model is.

De waarde van Local LLM ligt in het omzetten van deze oordelen in visuele input, in plaats van gebruikers één voor één te laten raden op Hugging Face. In de blogpost worden de principes uitgelegd en de tool combineert de lijst met live modellen met de hardware van de gebruiker om actuele aanbevelingen te geven.