Mari kita lihat kesimpulannya terlebih dahulu: memori video bukanlah satu-satunya hambatan
Untuk menentukan apakah model lokal besar dapat berjalan, Anda tidak bisa hanya melihat parameter model, atau hanya nomor memori grafis. Yang benar-benar memengaruhi pemuatan adalah bobot model, format kuantisasi, cache KV, overhead kerangka kerja yang berjalan, penggunaan latar belakang sistem, dan apakah beberapa lapisan perlu dipindahkan ke memori CPU. Versi Q4 dari model 7B mungkin lebih santai, versi 14B Q8 akan lebih ketat; memori video 24GB yang sama, jika konteksnya ditarik dari 4K ke 32K, cache KV juga akan memakan ruang yang tersedia.
Ide yang disarankan untuk LLM Lokal adalah membuat penilaian runnability terlebih dahulu, lalu mengurutkannya berdasarkan penggunaan dan kualitas model. Setelah pengguna memasukkan memori video, memori, sistem dan penggunaan, backend akan memperkirakan hunian bobot, cache KV, dan margin berjalan. Jika model memerlukan pembongkaran sebagian, halaman akan tampak sebagai pembongkaran sebagian, bukan membungkusnya sebagai "dapat dijalankan sepenuhnya". Hal ini penting bagi rata-rata pengguna, karena dapat memuat dan dapat digunakan adalah dua hal yang berbeda.
6GB hingga 8GB: Prioritaskan model kecil dan kuantisasi rendah
Memori video 6GB hingga 8GB lebih cocok untuk model terkuantisasi Q4 atau Q5 1B, 3B, 4B, 7B. Rentang ini dapat memenuhi tanya jawab ringan, penjelasan kode sederhana, ringkasan, terjemahan, dan penggunaan pribadi dengan konkurensi rendah, tetapi tidak cocok untuk memasukkan semua model besar yang populer ke dalamnya. Model visi, model multimodal, dan tugas konteks panjang akan mencapai puncak lebih cepat karena encoder gambar dan cache KV juga menempati memori.
Jika pengguna hanya memiliki memori video 8GB, halaman rekomendasi harus lebih konservatif: lebih baik merekomendasikan model kecil yang dapat berjalan pada GPU penuh, daripada memberi peringkat model 30B dalam bentuk yang tidak di-uninstall sebagian. Pembongkaran sebagian dapat berfungsi dalam beberapa skenario, tetapi kecepatan dan pengalaman bergantung pada CPU, bandwidth memori, PCIe, backend inferensi, dan beban sistem, dan tidak dapat digunakan sebagai jawaban pilihan pertama bagi pengguna biasa.
12GB hingga 16GB: pilihan terbaik bagi sebagian besar pengguna desktop
12GB dan 16GB adalah konfigurasi umum untuk banyak kartu grafis tingkat konsumen, seperti RTX 3060 12GB, RTX 4070 12GB, dan RTX 4060 Ti 16GB. Rentang ini biasanya dapat mencakup kumpulan model 7B hingga 14B versi terkuantifikasi Q4/Q5, dan terdapat ruang untuk opsi dalam pemrograman, Tanya Jawab umum, dan RAG ringan. Bagi pengguna, kuncinya bukanlah mengejar model terbesar, namun menemukan versi yang dapat berjalan secara stabil, tidak terlalu cepat, dan memiliki panjang konteks yang memadai.
Dalam rentang ini, pilihan kuantitatif akan berdampak langsung pada pengalaman. Q4 secara umum lebih mudah dipasang, Q5/Q6 lebih konsisten namun lebih berat, dan Q8 mendekati kualitas tinggi namun secara signifikan menekan ruang kepala. Halaman LLM Lokal harus memungkinkan pengguna melihat "memori yang diperlukan" dan "mode berjalan" alih-alih hanya memberikan nama model. Dengan cara ini, pengguna akan mengetahui mengapa hasil yang direkomendasikan memiliki peringkat lebih tinggi.
24GB hingga 48GB: Mulailah mengejar kualitas yang lebih tinggi dan konteks yang lebih panjang
Memori video 24GB merupakan titik balik penting bagi LLM lokal. Hal ini memungkinkan pengguna untuk mencoba model 14B, 27B, 30B, 32B yang lebih besar, atau menjalankan model 7B/14B dalam kuantisasi lebih tinggi dan konteks yang lebih panjang. Di atas 48GB lebih cocok untuk kuantifikasi berkualitas tinggi, lebih banyak ruang eksperimental, peralihan multi-model, dan tugas konteks yang lebih panjang.
Namun memori video yang lebih besar tetap tidak berarti semua model dapat digunakan dengan mudah. Total parameter dan parameter aktivasi model MoE berbeda. Estimasi kecepatan bergantung pada parameter aktif dan pembacaan memori; model visual juga mempertimbangkan encoder gambar; konteks panjang akan meningkatkan cache KV. Sistem rekomendasi perlu memecah perbedaan-perbedaan ini dan menampilkannya untuk mencegah pengguna salah berpikir bahwa "jika memori video cukup besar, maka harus cepat."
Kapan pembongkaran memori dan CPU berguna?
Ketika memori video tidak cukup tetapi memori sistem mencukupi, beberapa backend dapat memasukkan beberapa lapisan ke dalam memori CPU. Hal ini memungkinkan model untuk memuat, tetapi cenderung melambat, terutama jika kartu grafis diskrit perlu melalui PCIe. Memori terpadu Apple Silicon tidak memiliki tebing PCIe yang sama, namun masih dipengaruhi oleh bandwidth memori, kernel Metal/MLX, dan jejak latar belakang.
Jadi halaman tersebut harus membedakan antara GPU penuh, pembongkaran sebagian, dan CPU saja. Yang paling perlu diketahui oleh pengguna awam adalah: GPU yang dijalankan secara penuh biasanya memberikan pengalaman terbaik; pembongkaran sebagian dapat digunakan sebagai alternatif; Khusus CPU terutama cocok untuk model kecil atau pengujian offline, dan tidak cocok untuk pengalaman obrolan yang mengharapkan throughput tinggi.
Bagaimana membuat pilihan dengan LLM Lokal
Setelah memasukkan memori video dan memori, pertama-tama periksa apakah beberapa teratas menjalankan GPU penuh, lalu lihat versi terkuantisasi dan interval kepercayaan kecepatan. Jika yang pertama adalah penghapusan sebagian, itu berarti ia memiliki keunggulan dalam kualitas atau popularitas unduhan, tetapi itu belum tentu menjadi pilihan harian dengan pengalaman terbaik. Pengguna dapat beralih antara "Kualitas Pertama, Seimbang, Konteks Panjang" untuk mengamati perubahan peringkat.
Untuk halaman SEO, tujuan artikel ini bukan untuk menghafal semua model bagi pengguna, tetapi untuk menjelaskan logika pengambilan keputusan dan membawa pengguna kembali ke alat yang direkomendasikan. Setelah konsep memori video, kuantisasi, konteks, dan mode operasi dijelaskan dengan jelas, pengguna dapat memasukkan perangkat kerasnya sendiri ke dalam alat dan hasil yang diperoleh dapat dipercaya.