Apple Unified Memory for Local LLMs

Giải thích tại sao tổng bộ nhớ trên Mac không thể dùng làm bộ nhớ video và cách chọn model phù hợp cho máy 16GB, 32GB, 64GB và 128GB.

Bộ nhớ hợp nhất không có nghĩa là “tất cả các model đều có thể được sử dụng”

Bộ nhớ hợp nhất của Apple Silicon được CPU, GPU, hệ thống, ứng dụng và dịch vụ nền sử dụng. Ưu điểm của nó là CPU và GPU có chung bộ nhớ tốc độ cao và trải nghiệm triển khai của nhiều công cụ mô hình cục bộ đơn giản hơn so với card đồ họa độc lập truyền thống; nhưng điều đó không có nghĩa là tất cả 32GB, 64GB hoặc 128GB đều có thể được sử dụng làm không gian trọng lượng mô hình.

Khi thực sự chọn một kiểu máy, bạn cần để lại dung lượng cho macOS, trình duyệt, IDE, dịch vụ suy luận, bộ nhớ đệm KV và các tensor tạm thời. Nếu máy Mac 32GB có trọng lượng model là 28GB thì có vẻ như nó vừa vặn. Tuy nhiên, trong hoạt động thực tế, bộ nhớ có thể thường xuyên bị nén, chuyển sang đĩa hoặc tốc độ có thể giảm đáng kể. LLM cục bộ ước tính dung lượng trống một cách thận trọng hơn ở chế độ Mac.

16GB, 32GB, 64GB và 128GB phù hợp với loại nào?

Máy Mac 16GB phù hợp hơn với các model nhỏ và lượng tử hóa từ thấp đến trung bình, chẳng hạn như phiên bản Q4/Q5 của 3B, 4B và 7B. Nó có thể đáp ứng hỗ trợ trò chuyện, tóm tắt, dịch thuật và mã đơn giản nhẹ nhàng, nhưng không phù hợp với các mô hình trực quan hoặc bối cảnh dài. 32GB có thể bao gồm nhiều mẫu 7B/14B hơn và cũng có thể thử các phiên bản lượng tử hóa ổn định hơn, đây là điểm khởi đầu chung của các nhà phát triển thông thường.

Sau 64GB, người dùng có thể thử các mẫu MoE hoặc 30B lớn hơn, những mẫu này cũng có thể dành chỗ cho các bối cảnh dài và đa nhiệm. 128GB phù hợp với phạm vi thử nghiệm lớn hơn, chẳng hạn như các mô hình lớn có lượng tử hóa cao, so sánh nhiều phiên bản mô hình, bối cảnh dài và quy trình làm việc cục bộ phức tạp. Nhưng ngay cả với 128GB, bạn vẫn cần xem xét trọng lượng mô hình, bộ đệm KV, chương trình phụ trợ và tốc độ.

Sự khác biệt giữa Metal, MLX và llama.cpp

Các chương trình phụ trợ phổ biến trên Mac bao gồm llama.cpp Metal, MLX, Ollama và LM Studio. Sự tối ưu hóa cơ bản của các công cụ này là khác nhau và tốc độ của cùng một mô hình trên các chương trình phụ trợ khác nhau có thể khác nhau. Mô hình MoE đặc biệt dựa vào việc triển khai kernel và không thể suy ra tốc độ chỉ bằng cách sử dụng số lượng tham số.

Do đó, tok/s trên trang đề xuất phải là ước tính hoặc phạm vi thận trọng, không phải là một lời hứa tuyệt đối. Điều người dùng thực sự cần là một hướng sàng lọc: mô hình nào có thể được tải với xác suất cao, mô hình nào cần nhiều bộ nhớ hơn và mô hình nào chỉ có thể chạy trên lý thuyết nhưng có trải nghiệm không ổn định.

Tại sao 128GB nên mở khóa model lớn hơn

Nếu 32GB, 64GB và 128GB đưa ra đề xuất ưu tiên chất lượng giống hệt nhau, điều đó thường có nghĩa là thuật toán sắp xếp không tận dụng đúng sự thay đổi về dung lượng. Bộ nhớ hợp nhất lớn hơn sẽ cho phép các mô hình có số lượng tham số cao hơn, lượng tử hóa cao hơn hoặc ngữ cảnh dài hơn tham gia vào tập ứng cử viên. Đặc biệt, những mẫu xe đặt chất lượng lên hàng đầu sẽ phản ánh điều này.

Nhưng "lớn hơn" cũng không phải là mục tiêu duy nhất. Hệ thống đề xuất cần xếp hạng giữa chất lượng mô hình, kết hợp nhiệm vụ, chế độ thực thi, độ tin cậy về tốc độ và biên độ bộ nhớ. Máy Mac 128 GB có thể chạy các mẫu lớn hơn, nhưng điều đó không có nghĩa là mẫu lớn nhất nên được khuyến nghị một cách mù quáng cho mọi trường hợp; những lựa chọn tốt nhất cho các nhiệm vụ lập trình, tổng quát, toán học và trực quan có thể khác nhau.

Người dùng Mac nên chọn gì?

Người dùng thông thường có thể bắt đầu với chế độ cân bằng. Nếu kết quả là tất cả đều chạy GPU/bộ nhớ hợp nhất đầy đủ thì cấu hình ổn định; nếu một số lượng lớn kết quả hiển thị giảm tải một phần hoặc tốc độ tin cậy thấp, bạn cần giảm lượng tử hóa, rút ngắn ngữ cảnh hoặc chọn một mô hình nhỏ hơn. Khi thực hiện các tác vụ lập trình, khả năng mã và độ dài ngữ cảnh của mô hình rất quan trọng; khi thực hiện các nhiệm vụ trực quan, hãy đảm bảo mô hình thực sự là mô hình đa phương thức.

Giá trị của Local LLM nằm ở việc đưa những nhận định này thành thông tin đầu vào trực quan, thay vì để người dùng đoán từng cái một trên Ôm Mặt. Bài đăng trên blog giải thích các nguyên tắc và công cụ này kết hợp danh sách mô hình trực tiếp với phần cứng của người dùng để đưa ra các đề xuất hiện tại.

Bộ nhớ hợp nhất của Apple ảnh hưởng đến LLM cục bộ như thế nào?

Bộ nhớ hợp nhất không có nghĩa là “tất cả các model đều có thể được sử dụng”

16GB, 32GB, 64GB và 128GB phù hợp với loại nào?

Sự khác biệt giữa Metal, MLX và llama.cpp

Tại sao 128GB nên mở khóa model lớn hơn

Người dùng Mac nên chọn gì?

Tìm hiểu sâu hơn về cách chọn LLM cục bộ