Önce sonuca bakalım: Video belleği tek darboğaz değil
Yerel büyük bir modelin çalışıp çalışmayacağını belirlemek için yalnızca model parametrelerine veya yalnızca grafik belleği numaralarına bakamazsınız. Yüklemeyi gerçekten etkileyen şeyler model ağırlıkları, niceleme formatı, KV önbellek, çalışan çerçeve ek yükü, sistem arka plan kullanımı ve bazı katmanların CPU belleğine aktarılmasının gerekip gerekmediğidir. 7B modelinin Q4 versiyonu rahat olabilir, 14B Q8 versiyonu ise sıkı olacaktır; aynı 24 GB video belleği, eğer bağlam 4K'dan 32K'ya çekilirse, KV önbelleği de kullanılabilir alanı tüketecektir.
Yerel LLM için önerilen fikir, önce çalıştırılabilirlik kararı vermek, ardından kullanıma ve model kalitesine göre sıralamaktır. Kullanıcı video belleğini, belleği, sistemi ve kullanımı girdikten sonra arka uç, ağırlık doluluğunu, KV önbelleğini ve çalışma marjını tahmin edecektir. Model kısmi boşaltma gerektiriyorsa sayfa "tamamen çalıştırılabilir" olarak sarılmak yerine kısmen yüklenmiş olarak görünecektir. Bu ortalama bir kullanıcı için önemlidir çünkü yüklenebilmek ve kullanılabilir olmak iki farklı şeydir.
6 GB - 8 GB: Küçük modellere ve düşük nicelemeye öncelik verin
6 GB ila 8 GB video belleği, 1B, 3B, 4B, 7B'nin Q4 veya Q5 nicemlenmiş modelleri için daha uygundur. Bu seri, hafif soru-cevap, basit kod açıklaması, özet, çeviri ve düşük eş zamanlı kişisel kullanımı karşılayabilir ancak tüm popüler büyük modelleri içine doldurmak için uygun değildir. Görüntü kodlayıcı ve KV önbelleği de belleği işgal ettiğinden görüntü modelleri, çok modlu modeller ve uzun bağlamlı görevler daha hızlı zirveye ulaşacaktır.
Kullanıcının yalnızca 8 GB video belleği varsa öneri sayfası daha muhafazakar olmalıdır: 30B modelini kısmen kaldırılmış bir biçimde sıralamak yerine, tam GPU ile çalışabilen küçük bir model önerin. Kısmi boşaltma bazı senaryolarda işe yarayabilir ancak hız ve deneyim CPU'ya, bellek bant genişliğine, PCIe'ye, çıkarım arka ucuna ve sistem yüküne bağlıdır ve sıradan kullanıcılar için ilk seçenek yanıt olarak kullanılamaz.
12GB ila 16GB: çoğu masaüstü kullanıcısı için en uygun nokta
12 GB ve 16 GB, RTX 3060 12 GB, RTX 4070 12 GB ve RTX 4060 Ti 16 GB gibi birçok tüketici sınıfı grafik kartı için ortak yapılandırmalardır. Bu aralık genellikle 7B ila 14B modellerinin Q4/Q5 sayısallaştırılmış sürümlerini kapsayabilir ve programlama, genel Soru-Cevap ve hafif RAG seçenekleri için yer vardır. Kullanıcılar için önemli olan en büyük modeli takip etmek değil, kararlı bir şekilde çalışabilen, çok hızlı olmayan ve yeterli bağlam uzunluğuna sahip bir sürüm bulmaktır.
Bu aralıkta niceliksel seçimler deneyimi doğrudan etkileyecektir. Q4'ün takılması genellikle daha kolaydır, Q5/Q6 daha tutarlıdır ancak daha fazla ağırlık alır ve Q8 yüksek kaliteye yakındır ancak boşluk payını önemli ölçüde daraltır. Yerel LLM sayfası, kullanıcının yalnızca bir model adı vermek yerine "gerekli belleği" ve "çalışma modunu" görmesine izin vermelidir. Bu şekilde kullanıcılar, önerilen sonuçların neden daha üst sıralarda yer aldığını bilecek.
24 GB - 48 GB: Daha yüksek kalite ve daha uzun bağlam peşinde koşmaya başlayın
24GB video belleği yerel Yüksek Lisans için önemli bir dönüm noktasıdır. Kullanıcıların daha büyük 14B, 27B, 30B, 32B modellerini denemelerine veya 7B/14B modellerini daha yüksek nicemleme ve daha uzun bağlamlarda çalıştırmalarına olanak tanır. 48 GB'ın üstü, yüksek kaliteli ölçüm, daha fazla deneysel alan, çoklu model değiştirme ve daha uzun bağlam görevleri için daha uygundur.
Ancak video belleğinin daha büyük olması yine de tüm modellerin rahatlıkla kullanılabileceği anlamına gelmiyor. MEB modelinin toplam parametreleri ve aktivasyon parametreleri farklıdır. Hız tahmini aktif parametrelere ve hafıza okumasına bağlıdır; görsel model aynı zamanda görüntü kodlayıcıyı da dikkate alır; uzun bağlam KV önbelleğini artıracaktır. Öneri sisteminin, kullanıcıların "video belleği yeterince büyükse hızlı olması gerekir" gibi yanlış bir düşünceye kapılmalarını önlemek için bu farklılıkları parçalayıp görüntülemesi gerekiyor.
Bellek ve CPU boşaltma ne zaman faydalıdır?
Video belleği yeterli olmadığında ancak sistem belleği yeterli olduğunda, bazı arka uçlar bazı katmanları CPU belleğine yerleştirebilir. Bu, modelin yüklenmesine olanak tanır ancak özellikle ayrık grafik kartının PCIe üzerinden geçmesi gerekiyorsa yavaşlama eğilimi gösterir. Apple Silicon'un birleşik belleği aynı PCIe uçurumuna sahip değil ancak yine de bellek bant genişliğinden, Metal/MLX çekirdeğinden ve arka plan ayak izinden etkileniyor.
Bu nedenle sayfanın tam GPU, kısmi boşaltma ve yalnızca CPU arasında ayrım yapması gerekir. Sıradan kullanıcıların en çok bilmesi gereken şey şudur: GPU'nun tamamının çalıştırılması genellikle en iyi deneyimi sağlar; alternatif olarak kısmi boşaltma kullanılabilir; Yalnızca CPU, esas olarak küçük modeller veya çevrimdışı testler için uygundur ve yüksek aktarım hızı gerektiren sohbet deneyimleri için uygun değildir.
Yerel LLM ile seçimler nasıl yapılır?
Video belleği ve belleği girdikten sonra, ilk önce ilk birkaçının tam GPU çalışması olup olmadığını kontrol edin ve ardından nicelenmiş sürüme ve hız güven aralığına bakın. Kısmi kaldırma ilk sırada yer alıyorsa, bu, kalite veya indirme popülerliği açısından bir avantaja sahip olduğu anlamına gelir, ancak mutlaka en iyi deneyime sahip günlük seçim değildir. Kullanıcılar sıralama değişikliklerini gözlemlemek için "Önce Kalite, Dengeli, Uzun Bağlam" arasında geçiş yapabilir.
SEO sayfaları için yazının amacı kullanıcılar için tüm modelleri ezberlemek değil, karar verme mantığını anlatmak ve kullanıcıları önerilen araca geri getirmektir. Video belleği, nicemleme, bağlam ve çalışma modu kavramları net bir şekilde açıklandıktan sonra kullanıcılar kendi donanımlarını araca girebilir ve elde edilen sonuçlar güvenilir olacaktır.