Local LLM

Trung tâm blog

Blog Local LLM

Hướng dẫn thực tế về VRAM, Mac, lượng tử hóa, mô hình lập trình và mô hình thị giác cục bộ.

Hướng dẫn bộ nhớ video

Những mô hình lớn cục bộ nào có thể chạy với các bộ nhớ đồ họa khác nhau?

Từ 6GB, 8GB, 12GB, 24GB đến 48GB, hãy giải thích cách kết hợp khối lượng tham số mô hình, phiên bản lượng tử hóa, bộ đệm KV và chi phí hệ thống để xác định xem có thể tải được hay không.

Đọc bài

chip táo

Bộ nhớ hợp nhất của Apple ảnh hưởng đến LLM cục bộ như thế nào?

Giải thích tại sao tổng bộ nhớ trên Mac không thể dùng làm bộ nhớ video và cách chọn model phù hợp cho máy 16GB, 32GB, 64GB và 128GB.

Đọc bài

Định lượng

Q4, Q5, Q6, Q8 Tôi nên chọn định lượng như thế nào?

Việc định lượng GGUF phổ biến hơn về việc sử dụng bộ nhớ, giảm chất lượng và cân bằng tốc độ giúp người dùng hiểu được ba ưu tiên về ưu tiên chất lượng, cân bằng và bối cảnh dài.

Đọc bài

mô hình lập trình

Làm thế nào để chọn LLM cục bộ phù hợp để lập trình?

Từ bốn kịch bản tạo, giải thích, xây dựng lại và bối cảnh dài, hãy giải thích lý do tại sao mục đích lập trình không thể chỉ nhìn vào kích thước mô hình và khối lượng tải xuống.

Đọc bài

đa phương thức

Làm cách nào để chạy mô hình tầm nhìn cục bộ và mô hình đa phương thức?

Bài viết này giới thiệu thêm các vấn đề về bộ nhớ đồ họa, bộ mã hóa hình ảnh, bối cảnh và hỗ trợ back-end lý luận cần được xem xét trong các mô hình trực quan so với mô hình văn bản.

Đọc bài

Lựa chọn công cụ

Sự khác biệt giữa Ollama, LM Studio và llama.cpp là gì?

Giải thích cho người dùng thông thường trải nghiệm cài đặt, quản lý mô hình, điều chỉnh hiệu suất và các nhóm áp dụng của ba phương pháp chạy cục bộ phổ biến.

Đọc bài