Bagaimana Apple Unified Memory memengaruhi LLM lokal?

Jelaskan mengapa total memori di Mac tidak dapat digunakan sebagai memori video, dan cara memilih model yang sesuai untuk mesin 16 GB, 32 GB, 64 GB, dan 128 GB.

Memori terpadu tidak berarti “semua model dapat digunakan”

Memori terpadu Apple Silicon digunakan oleh CPU, GPU, sistem, aplikasi, dan layanan latar belakang. Keuntungannya adalah CPU dan GPU berbagi memori berkecepatan tinggi yang sama, dan pengalaman penerapan banyak alat model lokal lebih sederhana dibandingkan dengan kartu grafis independen tradisional; Namun bukan berarti semua 32GB, 64GB, atau 128GB bisa dijadikan model ruang bobot.

Saat benar-benar memilih model, Anda harus memberikan kelonggaran untuk macOS, browser, IDE, layanan inferensi, cache KV, dan tensor sementara. Jika Mac 32 GB membebani modelnya menjadi 28 GB, sepertinya model tersebut bisa muat di dalamnya. Namun, dalam pengoperasian sebenarnya, memori mungkin sering dikompresi, ditukar ke disk, atau kecepatannya mungkin turun secara signifikan. LLM lokal memperkirakan ruang yang tersedia secara lebih konservatif dalam mode Mac.

Cocok untuk 16GB, 32GB, 64GB dan 128GB?

Mac 16 GB lebih cocok untuk model kecil dan kuantisasi rendah hingga menengah, seperti versi Q4/Q5 dari 3B, 4B, dan 7B. Ini dapat memenuhi obrolan ringan, ringkasan, terjemahan, dan bantuan kode sederhana, tetapi tidak cocok untuk konteks panjang atau model visual. 32GB dapat mencakup lebih banyak model 7B/14B, dan juga dapat mencoba versi terkuantisasi yang lebih stabil, yang merupakan titik awal umum bagi pengembang biasa.

Setelah 64GB, pengguna dapat mencoba model MoE atau 30B yang lebih besar, yang juga memberikan ruang untuk konteks panjang dan multitasking. 128 GB cocok untuk cakupan eksperimen yang lebih besar, seperti model besar yang sangat terkuantisasi, perbandingan beberapa versi model, konteks panjang, dan alur kerja lokal yang kompleks. Namun meski dengan 128GB, Anda tetap perlu melihat bobot model, cache KV, backend, dan kecepatan.

Perbedaan Metal, MLX dan llama.cpp

Backend umum di Mac termasuk llama.cpp Metal, MLX, Ollama, dan LM Studio. Pengoptimalan yang mendasari alat-alat ini berbeda, dan kecepatan model yang sama pada backend yang berbeda mungkin berbeda. Model MoE sangat bergantung pada implementasi kernel, dan kecepatannya tidak dapat disimpulkan hanya dengan menggunakan kuantitas parameter.

Oleh karena itu, tok/s pada halaman rekomendasi harus berupa perkiraan atau kisaran yang konservatif, bukan janji mutlak. Yang benar-benar dibutuhkan pengguna adalah arahan penyaringan: model mana yang dapat dimuat dengan probabilitas tinggi, model mana yang memerlukan lebih banyak memori, dan model mana yang hanya dapat berjalan secara teoritis tetapi memiliki pengalaman yang tidak stabil.

Mengapa 128GB harus membuka kunci model yang lebih besar

Jika 32GB, 64GB, dan 128GB memberikan rekomendasi kualitas yang sama persis, biasanya ini berarti algoritma pengurutan tidak memanfaatkan perubahan kapasitas dengan tepat. Memori terpadu yang lebih besar akan memungkinkan model dengan jumlah parameter lebih tinggi, kuantisasi lebih tinggi, atau konteks lebih panjang untuk memasuki kumpulan kandidat. Model yang mengutamakan kualitas khususnya harus mencerminkan hal ini.

Namun "lebih besar" juga bukan satu-satunya tujuan. Sistem pemberi rekomendasi perlu menentukan peringkat antara kualitas model, pencocokan tugas, mode eksekusi, keyakinan kecepatan, dan margin memori. Mac 128 GB dapat menjalankan model yang lebih besar, namun bukan berarti model terbesar harus direkomendasikan secara membabi buta untuk setiap skenario; pilihan terbaik untuk tugas pemrograman, umum, matematika, dan visual mungkin berbeda.

Apa yang harus dipilih pengguna Mac?

Pengguna biasa bisa memulai dengan mode seimbang. Jika hasilnya semua GPU penuh/memori terpadu berjalan, konfigurasinya stabil; jika sejumlah besar hasil menunjukkan pembongkaran sebagian atau kecepatan kepercayaan rendah, Anda perlu mengurangi kuantisasi, memperpendek konteks, atau memilih model yang lebih kecil. Saat melakukan tugas pemrograman, kemampuan kode dan panjang konteks model sangatlah penting; saat melakukan tugas visual, pastikan model tersebut memang model multimodal.

Nilai LLM Lokal terletak pada membuat penilaian ini menjadi masukan visual, daripada membiarkan pengguna menebak satu per satu di Hugging Face. Entri blog menjelaskan prinsip-prinsipnya, dan alat tersebut menggabungkan daftar model langsung dengan perangkat keras pengguna untuk memberikan rekomendasi terkini.