Q4, Q5, Q6, Q8 ฉันควรเลือกปริมาณอย่างไร

การกำหนดปริมาณ GGUF ทั่วไปของการใช้หน่วยความจำ การสูญเสียคุณภาพ และการแลกเปลี่ยนความเร็ว ช่วยให้ผู้ใช้เข้าใจการตั้งค่าสามประการ ได้แก่ ลำดับความสำคัญด้านคุณภาพ ความสมดุล และบริบทที่ยาวนาน

การหาปริมาณช่วยแก้ปัญหาหน่วยความจำ

โมเดลขนาดใหญ่ในท้องถิ่นมักจะไม่สามารถทำงานโดยตรงบนกราฟิกการ์ดระดับผู้บริโภคที่มีน้ำหนัก FP16 เต็ม ดังนั้นรูปแบบการจัดปริมาณ เช่น GGUF, AWQ และ GPTQ จะบีบอัดน้ำหนักให้เป็นตัวแทนที่มีขนาดเล็กลง Q4, Q5, Q6 และ Q8 เป็นตัวแทนของการแลกเปลี่ยนความแม่นยำและขนาดที่แตกต่างกัน ยิ่งความแม่นยำยิ่งสูง คุณภาพก็จะยิ่งมีเสถียรภาพและอัตราการเข้าใช้ก็จะยิ่งสูงขึ้น ยิ่งความแม่นยำต่ำ อัตราการเข้าพักก็จะน้อยลง แต่อาจสูญเสียความเสถียรของการใช้เหตุผล ประสิทธิภาพบริบทที่ยาว หรือความสามารถของงานที่ซับซ้อน

สำหรับผู้ใช้ทั่วไป ไม่จำเป็นต้องเชี่ยวชาญรายละเอียดทั้งหมดของการวัดปริมาณก่อน การตัดสินที่เป็นประโยชน์มากขึ้นคือ: หน่วยความจำวิดีโอของคุณสามารถโหลดได้เต็มหรือไม่ งานของคุณมีความอ่อนไหวต่อคุณภาพหรือไม่? คุณต้องการบริบทที่ยาวหรือไม่? คำถามสามข้อนี้กำหนดว่าจะสนับสนุน Q4, Q5/Q6 หรือ Q8

Q4: ตัวเลือกการเข้าที่พบบ่อยที่สุด

ข้อดีของไตรมาสที่ 4 คือการยึดครองต่ำและระยะการทำงานที่กว้าง รุ่น 7B, 14B และรุ่นใหญ่กว่าหลายรุ่นนั้นยากที่จะเข้าถึงฮาร์ดแวร์เดสก์ท็อปทั่วไปโดยไม่มี Q4 ไตรมาสที่ 4 มักเป็นจุดเริ่มต้นที่เหมาะสมสำหรับการแชท การสรุป คำอธิบายโค้ดแบบง่าย และความสามารถของโมเดลการสำรวจ

ข้อเสียของมันคือการสูญเสียคุณภาพที่ชัดเจนยิ่งขึ้น และอาจไม่เสถียรมากขึ้น โดยเฉพาะอย่างยิ่งในการให้เหตุผลที่ซับซ้อน คณิตศาสตร์ การสร้างโค้ดขนาดยาว และบริบทแบบหลายรอบ หากผู้ใช้แสวงหา "เพียงแค่ทำงาน" Q4 ก็เป็นตัวเลือกที่ดี หากผู้ใช้แสวงหาเอาต์พุตที่เสถียร ควรให้ความสำคัญกับการกำหนดค่าหน่วยความจำกราฟิก Q5, Q6 หรือสูงกว่า

ข้อ 5 และ ข้อ 6: ขนมหวานคุณภาพสำหรับคนส่วนใหญ่

โดยปกติแล้ว Q5/Q6 จะเป็นประนีประนอมที่ดีกว่าสำหรับการใช้งานในระยะยาว ใช้พื้นที่มากกว่าไตรมาสที่ 4 แต่มีคุณภาพมีเสถียรภาพมากกว่าสำหรับงานหลายๆ อย่าง และเหมาะอย่างยิ่งสำหรับการเขียนโปรแกรม การสรุปบทความขนาดยาว การถามตอบความรู้ และสถานการณ์ที่ต้องใช้ภาพลวงตาน้อยกว่า ผู้ใช้ LLM ในพื้นที่จำนวนมากจะถือว่า Q5_K_M หรือ Q6_K เป็นตัวเลือกที่ต้องการสำหรับการใช้งานรายวัน

โหมดการปรับสมดุลของ Local LLM ควรมีอคติกับเวอร์ชันประเภทนี้มากกว่า: ไม่ต้องเลือก Q8 ที่ไม่เสถียรสำหรับคุณภาพ หรือตั้งค่าเริ่มต้นเป็นปริมาณต่ำสุดเพื่อประหยัดหน่วยความจำ หลังจากที่ผู้ใช้ป้อนหน่วยความจำวิดีโอแล้ว การแยกหน่วยความจำในผลลัพธ์ที่แนะนำสามารถช่วยพิจารณาว่ายังมีพื้นที่ว่างสำหรับการวัดปริมาณปัจจุบันหรือไม่

Q8: คุณภาพมีเสถียรภาพมากขึ้น แต่อาชีพจะสูงกว่า

Q8 ใกล้เคียงกับประสบการณ์ที่มีความแม่นยำสูง และมักจะเหมาะสำหรับอุปกรณ์ที่มีหน่วยความจำกราฟิกขนาดใหญ่ หรือเมื่อผู้ใช้เลือกที่จะจัดลำดับความสำคัญของคุณภาพอย่างชัดเจน ข้อดีคือการสูญเสียเชิงปริมาณมีขนาดเล็กลงและเอาต์พุตมีเสถียรภาพมากขึ้น ข้อเสียคือการใช้หน่วยความจำวิดีโอใกล้เคียงกับสถานะการบีบอัดต่ำ ซึ่งจะลดแคช KV และระยะขอบการทำงาน

หาก Q8 ต้องการการออฟโหลดบางส่วนไปยังหน่วยความจำ CPU ประสบการณ์จริงอาจไม่ดีเท่ากับเวอร์ชันที่ใช้ GPU ในปริมาณน้อยแต่ใช้ GPU เต็มรูปแบบ ระบบการแนะนำไม่สามารถจัดเรียงตามความแม่นยำเชิงปริมาณเท่านั้น แต่ต้องพิจารณาวิธีการปฏิบัติงาน ช่วงความเร็ว และการใช้งานของผู้ใช้ด้วย

บริบทแบบยาวจะเปลี่ยนการหาปริมาณที่เหมาะสมที่สุด

ผู้ใช้จำนวนมากดูเฉพาะน้ำหนักของโมเดลและละเว้นแคช KV แคช KV เพิ่มขึ้นอย่างมากเมื่อบริบทเปลี่ยนจาก 4K เป็น 32K เป็น 128K โมเดล Q6 ที่สามารถทำงานที่ 4K อาจต้องดาวน์เกรดเป็น Q4 หรือเปลี่ยนไปใช้โมเดลที่เล็กกว่าในบริบทที่ยาว

ดังนั้นโหมด "บริบทยาวก่อน" ไม่ควรแนะนำรุ่นที่ใหญ่ที่สุดเท่านั้น แต่ควรรักษาระยะหน่วยความจำให้มากขึ้น สำหรับ RAG การอ่านเอกสารขนาดยาว และการวิเคราะห์ฐานโค้ด บริบทการประมวลผลที่เสถียรมีความสำคัญมากกว่าคุณภาพทางทฤษฎีของคำตอบเดียว

วิธีทำความเข้าใจการตั้งค่าใน Local LLM

ลำดับความสำคัญด้านคุณภาพจะพยายามเลือกผู้สมัครที่มีคุณภาพสูงกว่า พารามิเตอร์ที่ใหญ่กว่า หรือปริมาณที่สูงกว่า ความสมดุลจะประนีประนอมระหว่างคุณภาพ หน่วยความจำ และความเร็ว บริบทที่ยาวจะเลือกการเข้าพักที่น้อยกว่าอย่างระมัดระวังเพื่อป้องกันไม่ให้แคช KV กินพื้นที่ทำงาน

นี่คือจุดที่บล็อกและเครื่องมือควรทำงานร่วมกัน บทความนี้จะอธิบายข้อดีข้อเสียพื้นฐานของไตรมาส 4/ไตรมาส 5/ไตรมาส 6/ไตรมาส 8 เครื่องมือนี้จัดเตรียมเวอร์ชันที่รันได้ปัจจุบันโดยอิงตามฮาร์ดแวร์ของผู้ใช้และข้อมูลโมเดล Hugging Face และชี้ลิงก์ดาวน์โหลดไปยังหน้าโมเดลที่เกี่ยวข้อง