Q4, Q5, Q6, Q8 Bagaimana cara memilih kuantifikasi?

Kuantifikasi GGUF yang lebih umum atas penggunaan memori, kehilangan kualitas, dan trade-off kecepatan membantu pengguna memahami tiga preferensi yaitu prioritas kualitas, keseimbangan, dan konteks panjang.

Kuantifikasi memecahkan masalah memori

Model lokal yang besar biasanya tidak dapat dijalankan langsung pada kartu grafis tingkat konsumen dengan bobot FP16 penuh, sehingga format kuantisasi seperti GGUF, AWQ, dan GPTQ akan memampatkan bobot menjadi representasi yang lebih kecil. Q4, Q5, Q6, dan Q8 mewakili trade-off dengan presisi dan ukuran yang berbeda. Semakin tinggi keakuratannya, semakin stabil kualitasnya dan semakin tinggi tingkat huniannya; semakin rendah keakuratannya, semakin kecil okupansinya, namun mungkin kehilangan stabilitas penalaran, kinerja konteks yang panjang, atau kemampuan tugas yang kompleks.

Bagi rata-rata pengguna, tidak perlu menguasai semua detail kuantifikasi terlebih dahulu. Penilaian yang lebih praktis adalah: dapatkah memori video Anda terisi penuh? Apakah tugas Anda sensitif terhadap kualitas? Apakah Anda memerlukan konteks yang panjang? Ketiga pertanyaan ini menentukan apakah akan memilih Q4, Q5/Q6, atau Q8.

Q4: Pilihan entri yang paling umum

Keuntungan Q4 adalah tingkat okupansi yang rendah dan jangkauan operasi yang luas. Banyak model 7B, 14B dan bahkan model yang lebih besar sulit untuk masuk ke perangkat keras desktop biasa tanpa Q4. Q4 sering kali merupakan titik awal yang masuk akal untuk obrolan, ringkasan, penjelasan kode ringan, dan kemampuan model eksplorasi.

Kerugiannya adalah hilangnya kualitas lebih jelas, dan mungkin lebih tidak stabil terutama dalam penalaran yang kompleks, matematika, pembuatan kode yang panjang, dan konteks multi-putaran. Jika pengguna memilih "hanya berjalan", Q4 adalah pilihan yang baik; jika pengguna menginginkan output yang stabil, prioritas harus diberikan pada konfigurasi memori grafis Q5, Q6 atau lebih tinggi.

Q5 dan Q6: Makanan penutup berkualitas bagi kebanyakan orang

Q5/Q6 biasanya merupakan kompromi yang lebih baik untuk penggunaan jangka panjang. Mereka memakan lebih banyak ruang daripada Q4, tetapi kualitasnya lebih stabil untuk banyak tugas, dan sangat cocok untuk pemrograman, ringkasan artikel panjang, tanya jawab pengetahuan, dan skenario yang memerlukan lebih sedikit ilusi. Banyak pengguna LLM lokal akan mempertimbangkan Q5_K_M atau Q6_K sebagai pilihan pilihan mereka untuk penggunaan sehari-hari.

Mode pemerataan LLM Lokal harus lebih bias terhadap jenis versi ini: tidak secara paksa memilih Q8 yang tidak stabil untuk kualitas, atau menetapkan kuantisasi terendah secara default untuk menghemat memori. Setelah pengguna memasukkan memori video, pembagian memori pada hasil yang disarankan dapat membantu menentukan apakah masih ada ruang untuk kuantisasi saat ini.

Q8: Kualitasnya lebih stabil tetapi pekerjaannya lebih tinggi

Q8 mendekati pengalaman presisi tinggi dan biasanya cocok untuk perangkat dengan memori grafis lebih besar, atau ketika pengguna secara eksplisit memilih untuk memprioritaskan kualitas. Keuntungannya adalah kerugian kuantisasi lebih kecil dan keluarannya lebih stabil; kerugiannya adalah penggunaan memori video mendekati kondisi kompresi rendah, yang akan mengurangi cache KV dan margin berjalan.

Jika Q8 memerlukan pembongkaran sebagian ke memori CPU, pengalaman sebenarnya mungkin tidak sebaik versi yang kurang terkuantisasi namun menjalankan GPU penuh. Sistem rekomendasi tidak dapat diurutkan hanya berdasarkan keakuratan kuantitatif, tetapi juga harus mempertimbangkan metode pengoperasian, rentang kecepatan, dan penggunaan pengguna.

Konteks panjang mengubah kuantisasi optimal

Banyak pengguna hanya melihat bobot model dan mengabaikan cache KV. Cache KV meningkat secara signifikan seiring perubahan konteks dari 4K ke 32K ke 128K. Model Q6 yang dapat berjalan pada 4K mungkin perlu diturunkan versinya ke Q4 atau beralih ke model yang lebih kecil dalam konteks yang panjang.

Oleh karena itu, mode "konteks panjang dulu" tidak hanya merekomendasikan model terbesar, namun harus mempertahankan lebih banyak margin memori. Untuk RAG, pembacaan dokumen yang panjang, dan analisis basis kode, konteks pemrosesan yang stabil lebih penting daripada kualitas teoretis dari satu jawaban.

Bagaimana memahami preferensi di LLM Lokal

Prioritas kualitas akan mencoba memilih kandidat dengan kualitas lebih tinggi, parameter lebih besar atau kuantisasi lebih tinggi; keseimbangan akan mengorbankan kualitas, margin memori, dan kecepatan; konteks panjang akan secara konservatif memilih hunian yang lebih kecil untuk mencegah cache KV memakan ruang yang sedang berjalan.

Di sinilah blog dan alat harus bekerja sama. Artikel ini menjelaskan trade-off dasar pada Q4/Q5/Q6/Q8. Alat ini menyediakan versi yang dapat dijalankan saat ini berdasarkan perangkat keras pengguna dan data model Hugging Face, dan mengarahkan tautan unduhan ke halaman model yang sesuai.