Local LLM

定量化する

Q4、Q5、Q6、Q8 定量化はどのように選択すればよいですか?

より一般的な GGUF によるメモリ使用量、品質の損失、速度のトレードオフの定量化は、ユーザーが品質の優先順位、バランス、長いコンテキストの 3 つの優先順位を理解するのに役立ちます。

定量化により記憶の問題が解決される

通常、ローカルの大規模モデルは、完全な FP16 重みを備えたコンシューマー グレードのグラフィック カード上で直接実行できないため、GGUF、AWQ、GPTQ などの量子化形式によって重みが小さな表現に圧縮されます。 Q4、Q5、Q6、および Q8 は、さまざまな精度とサイズのトレードオフを表します。精度が高いほど品質が安定し、占有率が高くなります。精度が低いほど占有率は小さくなりますが、推論の安定性、長いコンテキストのパフォーマンス、または複雑なタスクの能力が失われる可能性があります。

平均的なユーザーの場合、最初に定量化の詳細をすべてマスターする必要はありません。より現実的な判断は、ビデオ メモリをフルにロードできるかどうかです。あなたのタスクは品質を重視していますか?長いコンテキストが必要ですか?これら 3 つの質問により、Q4、Q5/Q6、または Q8 のどれが優先されるかが決まります。

Q4: 最も一般的なエントリーの選択肢

Q4 の利点は占有率が低く、動作範囲が広いことです。 7B、14B、さらにはそれ以上のモデルの多くは、Q4 なしでは通常のデスクトップ ハードウェアに導入するのが困難です。 Q4 は、多くの場合、チャット、要約、軽量コードの説明、探索モデル機能の適切な開始点となります。

欠点は、品質の低下がより明白であり、特に複雑な推論、数学、長いコード生成、およびマルチラウンドのコンテキストではより不安定になる可能性があることです。 「ただ走る」ことを追求するならQ4が良いでしょう。ユーザーが安定した出力を追求する場合は、Q5、Q6、またはそれ以上のグラフィックス メモリ構成を優先する必要があります。

Q5 と Q6: ほとんどの人にとって高品質のデザート

通常、長期使用には Q5/Q6 が適しています。 Q4 よりも多くのスペースを必要としますが、多くのタスクの品質がより安定しており、プログラミング、長い記事の要約、知識に関する Q&A、および錯覚をあまり必要としないシナリオに特に適しています。多くのローカル LLM ユーザーは、日常使用に適した選択肢として Q5_K_M または Q6_K を検討します。

Local LLM のイコライゼーション モードは、このタイプのバージョンにさらに偏るべきです。品質のために不安定な Q8 を強制的に選択したり、メモリを節約するためにデフォルトで最も低い量子化を選択したりする必要はありません。ユーザーがビデオ メモリを入力した後、推奨結果のメモリ分割は、現在の量子化のための余地がまだあるかどうかを判断するのに役立ちます。

Q8: 品質は安定していますが、職業は高くなります

Q8 は高精度に近いエクスペリエンスであり、通常、より大きなグラフィックス メモリを備えたデバイス、またはユーザーが明示的に品質を優先することを選択した場合に適しています。利点は、量子化損失が小さく、出力がより安定していることです。欠点は、ビデオ メモリの使用量が低圧縮状態に近くなり、KV キャッシュと実行マージンが減少することです。

Q8 が CPU メモリへの部分的なオフロードを必要とする場合、実際のエクスペリエンスは、量子化されていない完全な GPU 実行バージョンほど良くない可能性があります。レコメンドシステムは定量的な精度だけで分類することはできず、操作方法や速度範囲、ユーザーの用途なども考慮する必要があります。

長いコンテキストは最適な量子化を変更します

多くのユーザーはモデルの重みだけを見て、KV キャッシュを無視します。 KV キャッシュは、コンテキストが 4K、32K、128K に進むにつれて大幅に増加します。 4K で実行できる Q6 モデルは、長期的には Q4 にダウングレードするか、より小さいモデルに切り替える必要がある場合があります。

したがって、「ロング コンテキスト ファースト」モードでは、単に最大のモデルを推奨するのではなく、より多くのメモリ マージンを保持する必要があります。 RAG、長いドキュメントの読み取り、およびコード ベースの分析では、単一の答えの理論的な品質よりも、安定した処理コンテキストが重要です。

ローカル LLM の設定を理解する方法

品質優先では、より高い品質、より大きなパラメータ、またはより高い量子化を持つ候補を選択しようとします。バランスを取ると、品質、メモリ マージン、速度の間で妥協が生じます。長いコンテキストは、KV キャッシュが実行領域を使い果たさないように、控えめに小さい占有率を選択します。

ここでは、ブログとツールが連携する必要があります。この記事では、第 4 四半期/第 5 四半期/第 6 四半期/第 8 四半期の基本的なトレードオフについて説明します。このツールは、ユーザーのハードウェアとハ​​グ フェイス モデル データに基づいて現在の実行可能なバージョンを提供し、対応するモデル ページへのダウンロード リンクを示します。

Local LLM 推薦ツールに戻る