Local LLM

ビデオメモリガイド

異なるグラフィックス メモリで実行できるローカルの大規模モデルはどれですか?

6GB、8GB、12GB、24GBから48GBまで、モデルパラメータのボリューム、量子化バージョン、KVキャッシュ、システムオーバーヘッドがどのように組み合わされてロード可能かどうかを判断する方法について説明します。

まず結論を見てみましょう: ボトルネックはビデオ メモリだけではありません

ローカルの大規模モデルが実行できるかどうかを判断するには、モデル パラメーターやグラフィックス メモリの数値だけを見ることはできません。読み込みに実際に影響を与えるのは、モデルの重み、量子化形式、KV キャッシュ、実行中のフレームワークのオーバーヘッド、システムのバックグラウンドの使用量、および一部のレイヤーを CPU メモリにオフロードする必要があるかどうかです。 7B モデルの Q4 バージョンはリラックスできるかもしれませんが、14B Q8 バージョンはタイトになります。同じ 24GB ビデオ メモリでも、コンテキストが 4K から 32K にプルされると、KV キャッシュも利用可能なスペースを消費します。

Local LLM で推奨されるアイデアは、最初に実行可能性を判断し、次に使用状況とモデルの品質によって分類することです。ユーザーがビデオ メモリ、メモリ、システム、使用状況を入力すると、バックエンドは重量占有率、KV キャッシュ、ランニング マージンを推定します。モデルが部分的なオフロードを必要とする場合、ページは「完全に実行可能」としてラップされるのではなく、部分的にオフロードされたものとして表示されます。ロードできることと使用できることは別のことであるため、これは平均的なユーザーにとって重要です。

6GB ~ 8GB: 小型モデルと低量子化を優先します。

6GB ~ 8GB のビデオ メモリは、1B、3B、4B、7B の Q4 または Q5 量子化モデルに適しています。この範囲は、軽量の質問と回答、簡単なコードの説明、要約、翻訳、および同時実行性の低い個人使用には対応できますが、人気のある大規模なモデルをすべて詰め込むのには適していません。ビジョン モデル、マルチモーダル モデル、およびロングコンテキスト タスクは、画像エンコーダーと KV キャッシュもメモリを占有するため、より速くトップに到達します。

ユーザーのビデオ メモリが 8GB しかない場合、推奨ページはより保守的であるべきです。部分的にアンインストールされた 30B モデルをランク付けするのではなく、フル GPU で実行できる小型モデルを推奨します。部分的なオフロードは一部のシナリオでは機能しますが、速度とエクスペリエンスは CPU、メモリ帯域幅、PCIe、推論バックエンド、システム負荷に依存するため、一般ユーザーの最初の選択肢として使用することはできません。

12GB ~ 16GB: ほとんどのデスクトップ ユーザーにとってスイート スポット

12GB と 16GB は、RTX 3060 12GB、RTX 4070 12GB、RTX 4060 Ti 16GB など、多くのコンシューマー グレードのグラフィック カードの一般的な構成です。この範囲は通常、7B ~ 14B モデルの Q4/Q5 定量化バージョンのバッチをカバーでき、プログラミング、一般的な Q&A、および軽量 RAG でのオプションの余地があります。ユーザーにとって重要なのは、最大のモデルを追求することではなく、安定して実行でき、速すぎず、十分なコンテキスト長を持つバージョンを見つけることです。

この範囲では、定量的な選択がエクスペリエンスに直接影響します。 Q4 は一般にフィットしやすく、Q5/Q6 はより一貫性がありますが、より多くの重量を占めます。Q8 は高品質に近いですが、ヘッドルームを大幅に圧迫します。 Local LLM のページでは、単にモデル名を与えるのではなく、「必要なメモリ」と「実行モード」をユーザーに表示する必要があります。このようにして、ユーザーは推奨結果が上位に表示される理由を知ることができます。

24GB ~ 48GB: より高品質でより長いコンテキストの追求を開始

24 GB のビデオ メモリは、ローカル LLM にとって重要な分岐点です。これにより、ユーザーはより大きな 14B、27B、30B、32B モデルを試したり、より高い量子化およびより長いコンテキストで 7B/14B モデルを実行したりできます。 48GB 以上は、高品質の定量化、より実験的なスペース、マルチモデルの切り替え、およびより長いコンテキスト タスクに適しています。

ただし、ビデオ メモリが大きいからといって、すべてのモデルが簡単に使用できるわけではありません。 MoE モデルの合計パラメータと活性化パラメータは異なります。速度の推定は、アクティブなパラメータとメモリ読み取り値によって異なります。視覚モデルでは画像エンコーダーも考慮されます。コンテキストが長いと、KV キャッシュが増加します。ユーザーが「ビデオメモリが十分大きければ速いに違いない」と誤解しないように、レコメンドシステムはこれらの違いを分解して表示する必要があります。

メモリと CPU のオフロードが役立つのはどのような場合ですか?

ビデオ メモリが十分ではなく、システム メモリが十分である場合、一部のバックエンドはいくつかのレイヤーを CPU メモリに配置できます。これにより、モデルをロードできるようになりますが、特にディスクリート グラフィック カードが PCIe を経由する必要がある場合、速度が低下する傾向があります。 Apple Silicon のユニファイド メモリには同じ PCIe クリフはありませんが、メモリ帯域幅、メタル/MLX カーネル、バックグラウンド フットプリントの影響を受けます。

したがって、ページでは、フル GPU、部分オフロード、CPU のみを区別する必要があります。一般のユーザーが最も知っておくべきことは、フル GPU を実行すると通常は最高のエクスペリエンスが得られるということです。代替手段として、部分的なオフロードを使用できます。 CPU のみは主に小規模モデルやオフライン テストに適しており、高いスループットを期待するチャット エクスペリエンスには適していません。

Local LLM で選択を行う方法

ビデオ メモリとメモリを入力した後、最初に上位のいくつかがフル GPU で実行されているかどうかを確認し、次に量子化バージョンと速度信頼区間を調べます。そもそも部分アンインストールである場合は、品質やダウンロード人気の点で有利であることを意味しますが、必ずしも最高のエクスペリエンスを備えた毎日の選択であるとは限りません。ユーザーは、「品質優先、バランスの取れた、長いコンテキスト」を切り替えて、ランキングの変化を観察できます。

SEO ページの場合、この記事の目標はユーザーにすべてのモデルを暗記することではなく、意思決定ロジックを説明し、ユーザーを推奨ツールに戻すことです。ビデオ メモリ、量子化、コンテキスト、および動作モードの概念が明確に説明された後、ユーザーは独自のハードウェアをツールに入力でき、得られる結果は信頼できるものになります。

Local LLM 推薦ツールに戻る