Apple ユニファイドメモリはローカル LLM にどのような影響を与えますか?

Mac の合計メモリをビデオメモリとして使用できない理由と、16GB、32GB、64GB、128GB マシンに適したモデルの選び方を説明します。

ユニファイドメモリだからといって「全機種使える」わけではない

Apple Silicon のユニファイドメモリは、CPU、GPU、システム、アプリ、バックグラウンドサービスによって使用されます。その利点は、CPU と GPU が同じ高速メモリを共有し、多くのローカルモデルツールの導入エクスペリエンスが従来の独立したグラフィックスカードよりも簡単であることです。ただし、32GB、64GB、または 128GB のすべてをモデルウェイトスペースとして使用できるという意味ではありません。

実際にモデルを選択するときは、macOS、ブラウザ、IDE、推論サービス、KV キャッシュ、および一時テンソルに対する余裕を残しておく必要があります。 32 GB の Mac のモデルを 28 GB に重み付けすると、ちょうど収まるように見えるかもしれません。しかし、実際の動作では、メモリが頻繁に圧縮されたり、ディスクにスワップされたり、速度が大幅に低下したりする可能性があります。ローカル LLM は、Mac モードで使用可能なスペースをより控えめに見積もります。

16GB、32GB、64GB、128GBは何に適していますか?

16GB Mac は、小型モデルや、3B、4B、7B の Q4/Q5 バージョンなどの低から中量子化に適しています。軽量のチャット、要約、翻訳、簡単なコード支援には対応できますが、長いコンテキストやビジュアルモデルには適していません。 32GB では、より多くの 7B/14B モデルをカバーでき、より安定した量子化バージョンを試すこともできます。これは、一般的な開発者にとって一般的な出発点です。

64GB を超えると、ユーザーはより大きな MoE または 30B モデルを試すことができ、これにより長いコンテキストやマルチタスクに対応できる余地も残されます。 128GB は、高度に量子化された大規模モデル、複数のモデルバージョンの比較、長いコンテキスト、複雑なローカルワークフローなど、より大きな実験範囲に適しています。ただし、128 GB であっても、モデルの重み、KV キャッシュ、バックエンド、速度を考慮する必要があります。

Metal、MLX、llama.cpp の違い

Mac 上の一般的なバックエンドには、llama.cpp Metal、MLX、Ollama、LM Studio などがあります。これらのツールの根本的な最適化は異なり、異なるバックエンド上の同じモデルの速度も異なる場合があります。 MoE モデルは特にカーネル実装に依存しており、パラメータ量だけを使用して速度を推測することはできません。

したがって、推奨ページの tok/s は、絶対的な約束ではなく、控えめな推定値または範囲である必要があります。ユーザーが本当に必要としているのは、どのモデルが高い確率でロードできるか、どのモデルがより多くのメモリを必要とするか、どのモデルが理論的にしか実行できないがエクスペリエンスが不安定かというスクリーニングの方向性です。

128GB がより大きなモデルのロックを解除する必要がある理由

32GB、64GB、および 128GB がまったく同じ品質優先の推奨事項を示している場合、通常、並べ替えアルゴリズムが容量の変更を適切に活用していないことを意味します。ユニファイドメモリが大規模であれば、より多くのパラメーター数、より高い量子化、またはより長いコンテキストを持つモデルを候補セットに入力できるようになります。特に品質第一のモデルはこれを反映する必要があります。

しかし、「大きくする」ことだけが目標ではありません。レコメンダーシステムは、モデルの品質、タスクのマッチング、実行モード、速度の信頼性、メモリマージンの間でランク付けを行う必要があります。 128GB Mac ではより大きなモデルを実行できますが、あらゆるシナリオに対して盲目的に最大のモデルを推奨する必要があるという意味ではありません。プログラミング、一般タスク、数学タスク、および視覚タスクに最適な選択は異なる場合があります。

Mac ユーザーは何を選択すればよいでしょうか?

一般ユーザーはバランスモードから始めることができます。結果がすべてフル GPU/ユニファイドメモリで実行された場合、構成は安定しています。多数の結果で部分的なオフロードや信頼性の低い速度が示されている場合は、量子化を減らすか、コンテキストを短縮するか、より小さいモデルを選択する必要があります。プログラミングタスクを実行する場合、モデルのコード機能とコンテキストの長さが重要です。視覚的なタスクを実行するときは、モデルが実際にマルチモーダルモデルであることを確認してください。

Local LLM の価値は、ユーザーに Hugging Face で 1 つずつ推測させるのではなく、これらの判断を視覚的な入力にできることにあります。ブログ投稿では原理が説明されており、このツールはライブモデルリストとユーザーのハードウェアを組み合わせて、現在の推奨事項を提供します。

Apple ユニファイド メモリはローカル LLM にどのような影響を与えますか?