Trước tiên hãy xem xét kết luận: bộ nhớ video không phải là nút thắt cổ chai duy nhất
Để xác định xem một mô hình lớn cục bộ có thể chạy hay không, bạn không thể chỉ nhìn vào các thông số của mô hình cũng như số lượng bộ nhớ đồ họa. Những gì thực sự ảnh hưởng đến việc tải là trọng lượng mô hình, định dạng lượng tử hóa, bộ nhớ đệm KV, chi phí khung chạy, mức sử dụng nền hệ thống và liệu một số lớp có cần được tải xuống bộ nhớ CPU hay không. Một phiên bản Q4 của mẫu 7B có thể thoải mái, một phiên bản Q8 14B sẽ chặt chẽ; cùng bộ nhớ video 24GB, nếu bối cảnh được kéo từ 4K lên 32K, bộ đệm KV cũng sẽ ngốn hết dung lượng trống.
Ý tưởng được đề xuất cho Local LLM là đưa ra đánh giá về khả năng chạy trước, sau đó sắp xếp theo mức độ sử dụng và chất lượng mô hình. Sau khi người dùng nhập bộ nhớ video, bộ nhớ, hệ thống và mức sử dụng, phần phụ trợ sẽ ước tính mức chiếm dụng trọng lượng, bộ đệm KV và biên độ chạy. Nếu mô hình yêu cầu giảm tải một phần thì trang sẽ xuất hiện dưới dạng được giảm tải một phần, thay vì gói nó dưới dạng "hoàn toàn có thể chạy được". Điều này quan trọng đối với người dùng bình thường, vì khả năng tải và khả năng sử dụng là hai việc khác nhau.
6GB đến 8GB: Ưu tiên các model nhỏ và lượng tử hóa thấp
Bộ nhớ video 6GB đến 8GB phù hợp hơn với các mẫu lượng tử hóa Q4 hoặc Q5 là 1B, 3B, 4B, 7B. Phạm vi này có thể đáp ứng các câu hỏi và câu trả lời nhẹ nhàng, giải thích mã đơn giản, tóm tắt, dịch thuật và sử dụng cá nhân có tính đồng thời thấp, nhưng nó không phù hợp để nhồi nhét tất cả các mô hình lớn phổ biến vào đó. Các mô hình tầm nhìn, mô hình đa phương thức và các tác vụ ngữ cảnh dài sẽ đạt kết quả nhanh hơn vì bộ mã hóa hình ảnh và bộ đệm KV cũng chiếm bộ nhớ.
Nếu người dùng chỉ có 8GB bộ nhớ video, trang đề xuất nên thận trọng hơn: nên đề xuất một mô hình nhỏ có thể chạy trên GPU đầy đủ, thay vì xếp hạng mô hình 30B ở dạng đã gỡ cài đặt một phần. Giảm tải một phần có thể hoạt động trong một số trường hợp, nhưng tốc độ và trải nghiệm phụ thuộc vào CPU, băng thông bộ nhớ, PCIe, phụ trợ suy luận và tải hệ thống và không thể được sử dụng làm giải pháp lựa chọn đầu tiên cho người dùng thông thường.
12GB đến 16GB: điểm lý tưởng cho hầu hết người dùng máy tính để bàn
12GB và 16GB là cấu hình phổ biến của nhiều card đồ họa dành cho người tiêu dùng, chẳng hạn như RTX 3060 12GB, RTX 4070 12GB và RTX 4060 Ti 16GB. Phạm vi này thường có thể bao gồm một loạt các phiên bản được định lượng Q4/Q5 của các mô hình 7B đến 14B và có chỗ cho các tùy chọn về lập trình, Hỏi & Đáp chung và RAG nhẹ. Đối với người dùng, điều quan trọng không phải là theo đuổi mô hình lớn nhất mà là tìm một phiên bản có thể chạy ổn định, không quá nhanh và có đủ độ dài ngữ cảnh.
Trong phạm vi này, những lựa chọn mang tính định lượng sẽ ảnh hưởng trực tiếp đến trải nghiệm. Q4 nhìn chung dễ lắp hơn, Q5/Q6 ổn định hơn nhưng chiếm nhiều trọng lượng hơn và Q8 gần đạt chất lượng cao nhưng lại thu hẹp đáng kể khoảng không gian trên đầu. Trang Local LLM sẽ cho phép người dùng xem "bộ nhớ bắt buộc" và "chế độ chạy" thay vì chỉ cung cấp tên kiểu máy. Bằng cách này, người dùng sẽ biết tại sao kết quả đề xuất lại được xếp hạng cao hơn.
24GB đến 48GB: Bắt đầu theo đuổi chất lượng cao hơn và bối cảnh dài hơn
Bộ nhớ video 24GB là bước ngoặt quan trọng đối với LLM cục bộ. Nó cho phép người dùng thử các mô hình 14B, 27B, 30B, 32B lớn hơn hoặc chạy các mô hình 7B/14B trong bối cảnh lượng tử hóa cao hơn và dài hơn. Trên 48GB phù hợp hơn cho việc định lượng chất lượng cao, nhiều không gian thử nghiệm hơn, chuyển đổi đa mô hình và các tác vụ ngữ cảnh dài hơn.
Nhưng bộ nhớ video lớn hơn vẫn không có nghĩa là tất cả các model đều có thể được sử dụng dễ dàng. Tổng tham số và tham số kích hoạt của mô hình MoE là khác nhau. Việc ước tính tốc độ phụ thuộc vào các thông số hoạt động và việc đọc bộ nhớ; mô hình trực quan cũng xem xét bộ mã hóa hình ảnh; bối cảnh dài sẽ làm tăng bộ đệm KV. Hệ thống khuyến nghị cần chia nhỏ những khác biệt này và hiển thị chúng để tránh người dùng lầm tưởng rằng “bộ nhớ video đủ lớn thì phải nhanh”.
Khi nào việc giảm tải bộ nhớ và CPU hữu ích?
Khi bộ nhớ video không đủ nhưng bộ nhớ hệ thống vẫn đủ, một số chương trình phụ trợ có thể đặt một số lớp vào bộ nhớ CPU. Điều này cho phép mô hình tải nhưng có xu hướng chậm lại, đặc biệt nếu card đồ họa rời cần vượt qua PCIe. Bộ nhớ hợp nhất của Apple Silicon không có cùng vách ngăn PCIe nhưng vẫn bị ảnh hưởng bởi băng thông bộ nhớ, hạt nhân Metal/MLX và dấu chân nền.
Vì vậy, trang nên phân biệt giữa GPU đầy đủ, giảm tải một phần và chỉ CPU. Điều người dùng phổ thông cần biết nhất là: chạy GPU đầy đủ thường có trải nghiệm tốt nhất; giảm tải một phần có thể được sử dụng như một giải pháp thay thế; CPU chỉ chủ yếu phù hợp với các mô hình nhỏ hoặc thử nghiệm ngoại tuyến và không phù hợp với trải nghiệm trò chuyện đòi hỏi thông lượng cao.
Cách thực hiện lựa chọn với Local LLM
Sau khi nhập bộ nhớ video và bộ nhớ, trước tiên hãy kiểm tra xem một số phần trên có chạy GPU đầy đủ hay không, sau đó xem phiên bản lượng tử hóa và khoảng tin cậy về tốc độ. Nếu đứng đầu là gỡ cài đặt một phần thì có nghĩa là nó có lợi thế về chất lượng hoặc mức độ tải xuống phổ biến nhưng không nhất thiết phải là lựa chọn hàng ngày với trải nghiệm tốt nhất. Người dùng có thể chuyển đổi giữa "Chất lượng đầu tiên, cân bằng, bối cảnh dài" để quan sát những thay đổi về thứ hạng.
Đối với các trang SEO, mục tiêu của bài viết không phải là ghi nhớ tất cả các mô hình cho người dùng mà là giải thích logic đưa ra quyết định và đưa người dùng quay lại công cụ được đề xuất. Sau khi các khái niệm về bộ nhớ video, lượng tử hóa, ngữ cảnh và chế độ hoạt động được giải thích rõ ràng, người dùng có thể nhập phần cứng của riêng mình vào công cụ và kết quả thu được sẽ rất đáng tin cậy.