Apple Birleşik Bellek yerel LLM'yi nasıl etkiler?

Mac'teki toplam belleğin neden video belleği olarak kullanılamayacağını ve 16 GB, 32 GB, 64 GB ve 128 GB makineler için uygun modelin nasıl seçileceğini açıklayın.

Birleşik hafıza “tüm modellerin kullanılabileceği” anlamına gelmez

Apple Silicon'un birleşik belleği CPU, GPU, sistem, uygulamalar ve arka plan hizmetleri tarafından kullanılır. Avantajı, CPU ve GPU'nun aynı yüksek hızlı belleği paylaşması ve birçok yerel model aracın dağıtım deneyiminin, geleneksel bağımsız grafik kartlarından daha basit olmasıdır; ancak bu, 32 GB, 64 GB veya 128 GB'ın tamamının model ağırlık alanı olarak kullanılabileceği anlamına gelmez.

Gerçekte bir model seçerken macOS, tarayıcılar, IDE'ler, çıkarım hizmetleri, KV önbellekleri ve geçici tensörler için pay bırakmanız gerekir. 32GB'lık bir Mac, modeli 28GB'a ağırlıklandırırsa, sığabilecek gibi görünebilir. Ancak gerçek çalışmada bellek sık sık sıkıştırılabilir, diske takılabilir veya hız önemli ölçüde düşebilir. Yerel LLM, Mac modunda kullanılabilir alanı daha ihtiyatlı bir şekilde tahmin eder.

16GB, 32GB, 64GB ve 128GB nelere uygundur?

16 GB Mac, 3B, 4B ve 7B'nin Q4/Q5 sürümleri gibi küçük modeller ve düşük ila orta niceliklendirme için daha uygundur. Hafif sohbet, özet, çeviri ve basit kod yardımını karşılayabilir ancak uzun bağlam veya görsel modeller için uygun değildir. 32GB, daha fazla 7B/14B modelini kapsayabilir ve ayrıca sıradan geliştiriciler için ortak bir başlangıç noktası olan daha kararlı nicelenmiş sürümleri de deneyebilir.

64 GB'tan sonra kullanıcılar daha büyük MoE veya 30B modellerini deneyebilir; bu da uzun bağlamlara ve çoklu görevlere yer bırakabilir. 128 GB, yüksek düzeyde nicelenmiş büyük modeller, çoklu model sürüm karşılaştırmaları, uzun bağlamlar ve karmaşık yerel iş akışları gibi daha geniş deney kapsamı için uygundur. Ancak 128 GB'ta bile model ağırlıklarına, KV önbelleğe, arka uca ve hıza bakmanız gerekiyor.

Metal, MLX ve llama.cpp arasındaki farklar

Mac'teki yaygın arka uçlar arasında llama.cpp Metal, MLX, Ollama ve LM Studio bulunur. Bu araçların temel optimizasyonları farklıdır ve aynı modelin farklı arka uçlardaki hızı farklı olabilir. MoE modeli özellikle çekirdek uygulamasına dayanır ve hız, yalnızca parametre miktarları kullanılarak çıkarsanamaz.

Bu nedenle, öneri sayfasındaki tok/s'ler mutlak bir vaat değil, ihtiyatlı bir tahmin veya aralık olmalıdır. Kullanıcıların gerçekten ihtiyaç duyduğu şey bir tarama yönüdür: hangi modeller yüksek olasılıkla yüklenebilir, hangi modeller daha fazla bellek gerektirir ve hangi modeller yalnızca teorik olarak çalışabilir ancak kararsız bir deneyime sahiptir.

Neden 128GB daha büyük modelin kilidini açmalı?

32 GB, 64 GB ve 128 GB tamamen aynı kalite öncelikli öneriyi veriyorsa bu genellikle sıralama algoritmasının kapasite değişikliğinden gerektiği gibi yararlanamadığı anlamına gelir. Daha büyük birleştirilmiş bellek, daha yüksek parametre sayısına, daha yüksek kuantizasyona veya daha uzun içeriğe sahip modellerin aday kümesine girmesine olanak sağlamalıdır. Özellikle kaliteye öncelik veren modeller bunu yansıtmalıdır.

Ancak "daha büyük" de tek hedef değil. Öneri sistemlerinin model kalitesi, görev eşleştirme, yürütme modu, hız güvenirliği ve bellek marjı arasında sıralama yapması gerekir. 128 GB'lık bir Mac daha büyük modelleri çalıştırabilir ancak bu, en büyük modelin her senaryo için körü körüne tavsiye edilmesi gerektiği anlamına gelmez; programlama, genel, matematiksel ve görsel görevler için en iyi seçenekler farklı olabilir.

Mac kullanıcıları neyi seçmeli?

Sıradan kullanıcılar dengeli modla başlayabilir. Sonuçların tümü tam GPU/birleşik bellek çalıştırmalarıysa, yapılandırma kararlıdır; çok sayıda sonuç kısmi boşaltma veya düşük güven hızı gösteriyorsa nicelemeyi azaltmanız, bağlamı kısaltmanız veya daha küçük bir model seçmeniz gerekir. Programlama görevlerini yaparken modelin kod yetenekleri ve bağlam uzunluğu önemlidir; görsel görevleri yaparken modelin gerçekten çok modlu bir model olduğundan emin olun.

Yerel LLM'nin değeri, kullanıcıların Hugging Face'te tek tek tahminde bulunmasına izin vermek yerine, bu kararları görsel girdiye dönüştürmesinde yatmaktadır. Blog yazısı ilkeleri açıklıyor ve araç, güncel öneriler sunmak için canlı model listesini kullanıcının donanımıyla birleştiriyor.