Q4, Q5, Q6, Q8 Tôi nên chọn định lượng như thế nào?

Việc định lượng GGUF phổ biến hơn về việc sử dụng bộ nhớ, giảm chất lượng và cân bằng tốc độ giúp người dùng hiểu được ba ưu tiên về ưu tiên chất lượng, cân bằng và bối cảnh dài.

Định lượng giải quyết vấn đề bộ nhớ

Các mô hình cục bộ lớn thường không thể chạy trực tiếp trên cạc đồ họa cấp độ người tiêu dùng có trọng số FP16 đầy đủ, vì vậy các định dạng lượng tử hóa như GGUF, AWQ và GPTQ sẽ nén trọng lượng thành các biểu diễn nhỏ hơn. Q4, Q5, Q6 và Q8 thể hiện sự cân bằng giữa các độ chính xác và kích cỡ khác nhau. Độ chính xác càng cao thì chất lượng càng ổn định và công suất sử dụng càng cao; độ chính xác càng thấp thì công suất chiếm chỗ càng nhỏ nhưng có thể mất tính ổn định về lý luận, hiệu suất ngữ cảnh dài hoặc khả năng thực hiện nhiệm vụ phức tạp.

Đối với người dùng bình thường, trước tiên không cần phải nắm vững tất cả các chi tiết định lượng. Một nhận định thực tế hơn là: bộ nhớ video của bạn có thể tải đầy đủ không? Nhiệm vụ của bạn có nhạy cảm về chất lượng không? Bạn có cần bối cảnh dài? Ba câu hỏi này xác định xem nên ưu tiên Q4, Q5/Q6 hay Q8.

Q4: Lựa chọn đầu vào phổ biến nhất

Ưu điểm của Q4 là chiếm dụng thấp và phạm vi hoạt động rộng. Nhiều mẫu 7B, 14B và thậm chí lớn hơn rất khó tiếp cận phần cứng máy tính để bàn thông thường nếu không có Q4. Q4 thường là điểm khởi đầu hợp lý để trò chuyện, tóm tắt, giải thích mã nhẹ và khả năng mô hình khám phá.

Nhược điểm của nó là sự giảm chất lượng rõ ràng hơn và có thể không ổn định hơn, đặc biệt là trong lý luận phức tạp, toán học, tạo mã dài và bối cảnh nhiều vòng. Nếu người dùng theo đuổi "chỉ chạy", Q4 là một lựa chọn tốt; nếu người dùng theo đuổi đầu ra ổn định, nên ưu tiên cấu hình bộ nhớ đồ họa Q5, Q6 trở lên.

Q5 và Q6: Món tráng miệng chất lượng dành cho hầu hết mọi người

Q5/Q6 thường là sự lựa chọn tốt hơn để sử dụng lâu dài. Chúng chiếm nhiều không gian hơn Q4 nhưng có chất lượng ổn định hơn cho nhiều tác vụ và đặc biệt thích hợp cho việc lập trình, tóm tắt bài viết dài, hỏi đáp kiến thức và các kịch bản đòi hỏi ít ảo tưởng hơn. Nhiều người dùng LLM địa phương sẽ coi Q5_K_M hoặc Q6_K là lựa chọn ưa thích của họ để sử dụng hàng ngày.

Chế độ cân bằng của Local LLM nên thiên về loại phiên bản này hơn: không ép buộc chọn Q8 không ổn định về chất lượng cũng như không mặc định ở mức lượng tử hóa thấp nhất để tiết kiệm bộ nhớ. Sau khi người dùng nhập bộ nhớ video, việc phân chia bộ nhớ trong kết quả được đề xuất có thể giúp xác định xem liệu còn chỗ cho lượng tử hóa hiện tại hay không.

Q8: Chất lượng ổn định hơn nhưng nghề nghiệp cao hơn

Q8 gần mang lại trải nghiệm có độ chính xác cao và thường phù hợp với các thiết bị có bộ nhớ đồ họa lớn hơn hoặc khi người dùng chọn ưu tiên chất lượng một cách rõ ràng. Ưu điểm là tổn thất lượng tử hóa nhỏ hơn và đầu ra ổn định hơn; nhược điểm là mức sử dụng bộ nhớ video gần ở trạng thái nén thấp, điều này sẽ làm giảm bộ đệm KV và biên độ chạy.

Nếu Q8 yêu cầu giảm tải một phần vào bộ nhớ CPU, trải nghiệm thực tế có thể không tốt bằng phiên bản chạy GPU đầy đủ nhưng ít lượng tử hóa hơn. Các hệ thống khuyến nghị không thể chỉ được sắp xếp theo độ chính xác về mặt định lượng mà còn phải xem xét các phương pháp vận hành, phạm vi tốc độ và mục đích sử dụng của người dùng.

Bối cảnh dài thay đổi lượng tử hóa tối ưu

Nhiều người dùng chỉ nhìn vào trọng lượng của model mà bỏ qua bộ đệm KV. Bộ nhớ đệm KV tăng đáng kể khi bối cảnh chuyển từ 4K lên 32K rồi đến 128K. Một mẫu Q6 có thể chạy ở 4K có thể cần phải hạ cấp xuống Q4 hoặc chuyển sang mẫu nhỏ hơn trong bối cảnh dài.

Do đó, chế độ "ngữ cảnh dài trước" không chỉ đề xuất mô hình lớn nhất mà còn phải giữ lại nhiều biên độ bộ nhớ hơn. Đối với RAG, việc đọc tài liệu dài và phân tích cơ sở mã, bối cảnh xử lý ổn định quan trọng hơn chất lượng lý thuyết của một câu trả lời duy nhất.

Cách hiểu tùy chọn trong LLM địa phương

Ưu tiên chất lượng sẽ cố gắng chọn ra những ứng viên có chất lượng cao hơn, thông số lớn hơn hoặc lượng tử hóa cao hơn; cân bằng sẽ thỏa hiệp giữa chất lượng, biên độ bộ nhớ và tốc độ; ngữ cảnh dài sẽ chọn tỷ lệ chiếm dụng nhỏ hơn một cách thận trọng để ngăn bộ đệm KV chiếm hết dung lượng đang chạy.

Đây là nơi blog và các công cụ nên làm việc cùng nhau. Bài viết giải thích sự đánh đổi cơ bản của Q4/Q5/Q6/Q8. Công cụ này cung cấp phiên bản có thể chạy được hiện tại dựa trên dữ liệu phần cứng và mô hình Khuôn mặt ôm của người dùng, đồng thời trỏ liên kết tải xuống đến trang mô hình tương ứng.