Local Vision and Multimodal Models

Bài viết này giới thiệu thêm các vấn đề về bộ nhớ đồ họa, bộ mã hóa hình ảnh, bối cảnh và hỗ trợ back-end lý luận cần được xem xét trong các mô hình trực quan so với mô hình văn bản.

Mô hình trực quan có nhiều lớp chi phí hơn mô hình văn bản

Các mô hình tầm nhìn cục bộ không chỉ có bản thể luận mô hình ngôn ngữ mà còn thường bao gồm bộ mã hóa hình ảnh, lớp chiếu, mã thông báo đặc biệt và mẫu đa phương thức. Khi người dùng nhìn thấy mô hình trực quan 7B, họ không thể ước tính bộ nhớ video dựa trên mô hình văn bản 7B một cách đơn giản. Độ phân giải hình ảnh, số lượng hình ảnh, mã thông báo trực quan và độ dài ngữ cảnh đều ảnh hưởng đến bộ nhớ và tốc độ thực tế.

Đây là lý do tại sao khi chọn mục đích "visual/multi-modal", hệ thống đề xuất phải sàng lọc các mô hình có đầu mối thực tế như tầm nhìn, vl, llava, hình ảnh, v.v. Đề xuất mô hình chỉ có văn bản cho các tác vụ trực quan, dù có chạy được cũng không thể thực hiện được điều người dùng muốn làm.

Những nhiệm vụ nào phù hợp với mô hình tầm nhìn địa phương

Mô hình trực quan cục bộ phù hợp để mô tả hình ảnh, hiểu ảnh chụp màn hình, giải thích sơ đồ đơn giản, hướng dẫn giao diện người dùng, hỗ trợ OCR, phân tích hình ảnh sản phẩm và hiểu tài liệu nhẹ. Ưu điểm của nó là quyền riêng tư và khả năng kiểm soát cục bộ và hình ảnh không cần phải tải lên dịch vụ của bên thứ ba; nhược điểm của nó là tốc độ, độ chính xác và khả năng suy luận trực quan phức tạp nhìn chung không tốt bằng các mô hình đa phương thức lớn trên đám mây.

Nếu người dùng chỉ thỉnh thoảng nhận dạng được hình ảnh, bạn có thể chọn mô hình đa phương thức nhỏ; nếu người dùng muốn thường xuyên phân tích ảnh chụp màn hình hoặc tài liệu thì cần có nhiều bộ nhớ hơn, hỗ trợ back-end tốt hơn và định dạng mô hình ổn định.

Cách ước tính bộ nhớ và bối cảnh video

Dung lượng bộ nhớ video của mô hình trực quan bao gồm trọng số mô hình ngôn ngữ, bộ mã hóa hình ảnh, bộ đệm KV và chi phí hoạt động. Hình ảnh được chuyển đổi thành mã thông báo trực quan, cũng được đưa vào ngân sách ngữ cảnh. Nhiều hình ảnh, độ phân giải cao hơn hoặc lời nhắc văn bản dài đều có thể làm tăng mức tiêu thụ.

Do đó, bộ nhớ video 8GB phù hợp hơn với các mô hình hình ảnh nhỏ, 12GB/16GB có thể thử nhiều mô hình đa phương thức cấp 7B hơn và 24GB trở lên phù hợp hơn cho các tác vụ hình ảnh với chất lượng cao hơn hoặc bối cảnh dài hơn. Người dùng bộ nhớ hợp nhất của Apple cũng nên để lại trợ cấp cho việc xử lý hệ thống và đồ họa.

Hỗ trợ phụ trợ quan trọng hơn tên model

Không phải tất cả các chương trình phụ trợ gốc đều hỗ trợ các mô hình trực quan như nhau. Ollama, LM Studio, llama.cpp, MLX có sự hỗ trợ không nhất quán cho các kiến trúc, mẫu và định dạng đầu vào hình ảnh khác nhau. Có các trọng lượng mô hình trên Ôm Mặt, nhưng điều đó không có nghĩa là công cụ hiện tại của bạn có thể chạy chỉ bằng một cú nhấp chuột.

Trang đề xuất nên cung cấp liên kết Ôm Mặt cho người dùng, cho phép họ vào trang mô hình để xem file, hướng dẫn và ví dụ. Trong tương lai, bạn cũng có thể thêm trường "công cụ chạy được hỗ trợ" vào mô hình trực quan để giảm tình trạng người dùng thấy nó không sử dụng được sau khi tải xuống.

Làm thế nào để tránh những khuyến nghị sai lầm

Vì mục đích trực quan, việc sàng lọc mô hình trước tiên phải xác định khả năng của tác vụ và sau đó xác định sự thích ứng của phần cứng. Ngay cả khi mô hình chỉ có văn bản có điểm cao thì mô hình đó cũng không nên đứng đầu trong các đề xuất trực quan. Ngược lại, một mô hình có lượng tải xuống thấp nhưng hỗ trợ rõ ràng hình ảnh đầu vào có thể đáp ứng tốt hơn nhu cầu của người dùng so với mô hình văn bản phổ biến.

Những quy tắc như vậy nên được viết vào phần back-end chứ không chỉ giải thích ở bản sao front-end. Khi người dùng chọn mô hình tầm nhìn, danh sách kết quả phải hiển thị rõ ràng nhãn "Trực quan/Đa phương thức", nguồn mô hình, độ dài ngữ cảnh, phiên bản lượng tử hóa và yêu cầu bộ nhớ.

Trang SEO của bạn nên bao gồm những cụm từ tìm kiếm nào?

Bài viết này có thể đề cập đến các mục đích tìm kiếm như "Cách chạy mô hình trực quan cục bộ", "Cần bao nhiêu bộ nhớ video cho mô hình đa phương thức", "triển khai cục bộ llava", "Hoạt động cục bộ Qwen VL". Sau này, bạn có thể tiếp tục chia nhỏ các dòng model cụ thể, các công cụ cụ thể và cấu hình bộ nhớ video cụ thể.

Nội dung càng cụ thể thì người dùng càng dễ ở lại và click vào công cụ. Một bài viết ngắn chỉ đưa ra khái niệm và không giải quyết được vấn đề của người dùng; một bài viết dài cần giải thích rõ ràng về phần cứng, định dạng model, chạy backend, các lỗi thường gặp, ví dụ về model, các tình huống áp dụng và các bước tiếp theo.

Làm cách nào để chạy mô hình tầm nhìn cục bộ và mô hình đa phương thức?