異なるグラフィックスメモリで実行できるローカルの大規模モデルはどれですか?

6GB、8GB、12GB、24GBから48GBまで、モデルパラメータのボリューム、量子化バージョン、KVキャッシュ、システムオーバーヘッドがどのように組み合わされてロード可能かどうかを判断する方法について説明します。

まず結論を見てみましょう: ボトルネックはビデオメモリだけではありません

ローカルの大規模モデルが実行できるかどうかを判断するには、モデルパラメーターやグラフィックスメモリの数値だけを見ることはできません。読み込みに実際に影響を与えるのは、モデルの重み、量子化形式、KV キャッシュ、実行中のフレームワークのオーバーヘッド、システムのバックグラウンドの使用量、および一部のレイヤーを CPU メモリにオフロードする必要があるかどうかです。 7B モデルの Q4 バージョンはリラックスできるかもしれませんが、14B Q8 バージョンはタイトになります。同じ 24GB ビデオメモリでも、コンテキストが 4K から 32K にプルされると、KV キャッシュも利用可能なスペースを消費します。

Local LLM で推奨されるアイデアは、最初に実行可能性を判断し、次に使用状況とモデルの品質によって分類することです。ユーザーがビデオメモリ、メモリ、システム、使用状況を入力すると、バックエンドは重量占有率、KV キャッシュ、ランニングマージンを推定します。モデルが部分的なオフロードを必要とする場合、ページは「完全に実行可能」としてラップされるのではなく、部分的にオフロードされたものとして表示されます。ロードできることと使用できることは別のことであるため、これは平均的なユーザーにとって重要です。

6GB ～ 8GB: 小型モデルと低量子化を優先します。

6GB ～ 8GB のビデオメモリは、1B、3B、4B、7B の Q4 または Q5 量子化モデルに適しています。この範囲は、軽量の質問と回答、簡単なコードの説明、要約、翻訳、および同時実行性の低い個人使用には対応できますが、人気のある大規模なモデルをすべて詰め込むのには適していません。ビジョンモデル、マルチモーダルモデル、およびロングコンテキストタスクは、画像エンコーダーと KV キャッシュもメモリを占有するため、より速くトップに到達します。

ユーザーのビデオメモリが 8GB しかない場合、推奨ページはより保守的であるべきです。部分的にアンインストールされた 30B モデルをランク付けするのではなく、フル GPU で実行できる小型モデルを推奨します。部分的なオフロードは一部のシナリオでは機能しますが、速度とエクスペリエンスは CPU、メモリ帯域幅、PCIe、推論バックエンド、システム負荷に依存するため、一般ユーザーの最初の選択肢として使用することはできません。

12GB ～ 16GB: ほとんどのデスクトップユーザーにとってスイートスポット

12GB と 16GB は、RTX 3060 12GB、RTX 4070 12GB、RTX 4060 Ti 16GB など、多くのコンシューマーグレードのグラフィックカードの一般的な構成です。この範囲は通常、7B ～ 14B モデルの Q4/Q5 定量化バージョンのバッチをカバーでき、プログラミング、一般的な Q&A、および軽量 RAG でのオプションの余地があります。ユーザーにとって重要なのは、最大のモデルを追求することではなく、安定して実行でき、速すぎず、十分なコンテキスト長を持つバージョンを見つけることです。

この範囲では、定量的な選択がエクスペリエンスに直接影響します。 Q4 は一般にフィットしやすく、Q5/Q6 はより一貫性がありますが、より多くの重量を占めます。Q8 は高品質に近いですが、ヘッドルームを大幅に圧迫します。 Local LLM のページでは、単にモデル名を与えるのではなく、「必要なメモリ」と「実行モード」をユーザーに表示する必要があります。このようにして、ユーザーは推奨結果が上位に表示される理由を知ることができます。

24GB ～ 48GB: より高品質でより長いコンテキストの追求を開始

24 GB のビデオメモリは、ローカル LLM にとって重要な分岐点です。これにより、ユーザーはより大きな 14B、27B、30B、32B モデルを試したり、より高い量子化およびより長いコンテキストで 7B/14B モデルを実行したりできます。 48GB 以上は、高品質の定量化、より実験的なスペース、マルチモデルの切り替え、およびより長いコンテキストタスクに適しています。

ただし、ビデオメモリが大きいからといって、すべてのモデルが簡単に使用できるわけではありません。 MoE モデルの合計パラメータと活性化パラメータは異なります。速度の推定は、アクティブなパラメータとメモリ読み取り値によって異なります。視覚モデルでは画像エンコーダーも考慮されます。コンテキストが長いと、KV キャッシュが増加します。ユーザーが「ビデオメモリが十分大きければ速いに違いない」と誤解しないように、レコメンドシステムはこれらの違いを分解して表示する必要があります。

メモリと CPU のオフロードが役立つのはどのような場合ですか?

ビデオメモリが十分ではなく、システムメモリが十分である場合、一部のバックエンドはいくつかのレイヤーを CPU メモリに配置できます。これにより、モデルをロードできるようになりますが、特にディスクリートグラフィックカードが PCIe を経由する必要がある場合、速度が低下する傾向があります。 Apple Silicon のユニファイドメモリには同じ PCIe クリフはありませんが、メモリ帯域幅、メタル/MLX カーネル、バックグラウンドフットプリントの影響を受けます。

したがって、ページでは、フル GPU、部分オフロード、CPU のみを区別する必要があります。一般のユーザーが最も知っておくべきことは、フル GPU を実行すると通常は最高のエクスペリエンスが得られるということです。代替手段として、部分的なオフロードを使用できます。 CPU のみは主に小規模モデルやオフラインテストに適しており、高いスループットを期待するチャットエクスペリエンスには適していません。

Local LLM で選択を行う方法

ビデオメモリとメモリを入力した後、最初に上位のいくつかがフル GPU で実行されているかどうかを確認し、次に量子化バージョンと速度信頼区間を調べます。そもそも部分アンインストールである場合は、品質やダウンロード人気の点で有利であることを意味しますが、必ずしも最高のエクスペリエンスを備えた毎日の選択であるとは限りません。ユーザーは、「品質優先、バランスの取れた、長いコンテキスト」を切り替えて、ランキングの変化を観察できます。

SEO ページの場合、この記事の目標はユーザーにすべてのモデルを暗記することではなく、意思決定ロジックを説明し、ユーザーを推奨ツールに戻すことです。ビデオメモリ、量子化、コンテキスト、および動作モードの概念が明確に説明された後、ユーザーは独自のハードウェアをツールに入力でき、得られる結果は信頼できるものになります。

異なるグラフィックス メモリで実行できるローカルの大規模モデルはどれですか?

まず結論を見てみましょう: ボトルネックはビデオ メモリだけではありません