S4, S5, S6, S8 Nicelemeyi nasıl seçmeliyim?

Bellek kullanımı, kalite kaybı ve hız değişiminin daha yaygın olan GGUF ölçümü, kullanıcıların kalite önceliği, denge ve uzun bağlam olmak üzere üç tercihi anlamalarına yardımcı olur.

Niceleme hafıza problemini çözer

Yerel büyük modeller genellikle tam FP16 ağırlıklarına sahip tüketici sınıfı grafik kartlarında doğrudan çalıştırılamaz, bu nedenle GGUF, AWQ ve GPTQ gibi niceleme formatları ağırlıkları daha küçük temsillere sıkıştıracaktır. Q4, Q5, Q6 ve Q8, farklı hassasiyet ve boyutlardaki değiş tokuşları temsil eder. Doğruluk ne kadar yüksek olursa, kalite o kadar istikrarlı ve doluluk da o kadar yüksek olur; doğruluk ne kadar düşük olursa doluluk da o kadar az olur ancak muhakeme kararlılığı, uzun bağlam performansı veya karmaşık görev yetenekleri kaybedilebilir.

Ortalama bir kullanıcının öncelikle nicelik belirlemenin tüm ayrıntılarına hakim olmasına gerek yoktur. Daha pratik bir karar ise şudur: video belleğiniz tamamen yüklenebilir mi? Göreviniz kalite açısından hassas mı? Uzun bağlama mı ihtiyacınız var? Bu üç soru Q4'ün, Q5/Q6'nın mı yoksa Q8'in mi tercih edileceğini belirler.

S4: En yaygın giriş seçeneği

Q4'ün avantajları düşük işgal ve geniş çalışma aralığıdır. 7B, 14B ve hatta daha büyük modellerin birçoğunun Q4 olmadan normal masaüstü donanımına girmesi zordur. 4. Çeyrek genellikle sohbet, özetleme, basit kod açıklamaları ve keşif modeli yetenekleri için makul bir başlangıç noktasıdır.

Dezavantajı ise kalite kaybının daha belirgin olması ve özellikle karmaşık akıl yürütme, matematik, uzun kod oluşturma ve çok yönlü bağlamlarda daha kararsız olabilmesidir. Kullanıcı "sadece koşmayı" tercih ediyorsa Q4 iyi bir seçimdir; kullanıcı kararlı çıktı peşindeyse öncelik Q5, Q6 veya daha yüksek grafik belleği yapılandırmalarına verilmelidir.

S5 ve S6: Çoğu insan için kaliteli tatlılar

Q5/Q6 genellikle uzun süreli kullanım için daha iyi bir uzlaşmadır. 4. Çeyrekten daha fazla yer kaplarlar ancak birçok görev için kalite açısından daha istikrarlıdırlar ve özellikle programlama, uzun makale özetleri, bilgi soru-cevap ve daha az yanılsama gerektiren senaryolar için uygundurlar. Birçok yerel LLM kullanıcısı, günlük kullanımda tercih ettikleri seçenek olarak Q5_K_M veya Q6_K'yi düşünecektir.

Yerel LLM'nin eşitleme modu, bu tür sürüme karşı daha önyargılı olmalıdır: ne kalite için kararsız Q8'i zorla seçin, ne de bellekten tasarruf etmek için varsayılan olarak en düşük nicelemeyi seçin. Kullanıcı video belleğini girdikten sonra, önerilen sonuçlardaki bellek bölünmesi, mevcut nicemleme için hâlâ yer olup olmadığının belirlenmesine yardımcı olabilir.

S8: Kalite daha istikrarlı ancak meslek daha yüksek

Q8, yüksek hassasiyetli bir deneyime yakındır ve genellikle daha büyük grafik belleği olan cihazlar için veya kullanıcıların açıkça kaliteye öncelik vermeyi tercih ettiği cihazlar için uygundur. Avantajı nicemleme kaybının daha küçük olması ve çıktının daha kararlı olmasıdır; dezavantajı, video belleği kullanımının düşük sıkıştırma durumuna yakın olmasıdır, bu da KV önbelleğini ve çalışma marjını azaltacaktır.

Q8, CPU belleğine kısmi boşaltma gerektiriyorsa gerçek deneyim, daha az nicelenmiş ancak tam GPU çalıştıran sürüm kadar iyi olmayabilir. Öneri sistemleri yalnızca niceliksel doğruluğa göre sıralanamaz; aynı zamanda çalışma yöntemlerini, hız aralıklarını ve kullanıcı kullanımlarını da dikkate almalıdır.

Uzun bağlam optimal nicelemeyi değiştirir

Birçok kullanıcı yalnızca model ağırlığına bakar ve KV önbelleğini göz ardı eder. Bağlam 4K'dan 32K'ya ve 128K'ya geçtikçe KV önbelleği önemli ölçüde artar. 4K'da çalışabilen bir Q6 modelinin Q4'e düşürülmesi veya uzun bağlamda daha küçük bir modele geçmesi gerekebilir.

Bu nedenle, "önce uzun bağlam" modu yalnızca en büyük modeli önermemeli, aynı zamanda daha fazla bellek marjını korumalıdır. RAG, uzun belge okuma ve kod tabanı analizi için istikrarlı işleme bağlamı, tek bir yanıtın teorik kalitesinden daha önemlidir.

Yerel Yüksek Lisans'ta tercihler nasıl anlaşılır?

Kalite önceliği, daha yüksek kaliteye, daha büyük parametrelere veya daha yüksek kuantizasyona sahip adayları seçmeye çalışacaktır; dengeleme kalite, bellek marjı ve hız arasında uzlaşma sağlayacaktır; uzun bağlam, KV önbelleğinin çalışma alanını tüketmesini önlemek için ihtiyatlı bir şekilde daha küçük doluluğu seçecektir.

Blogların ve araçların birlikte çalışması gereken yer burasıdır. Makalede 4. Çeyrek/5. Çeyrek/6. Çeyrek/8. Çeyrek arasındaki temel ödünleşimler açıklanmaktadır. Araç, kullanıcının donanımına ve Hugging Face model verilerine dayalı olarak geçerli çalıştırılabilir sürümü sağlar ve indirme bağlantısını ilgili model sayfasına yönlendirir.