La quantification résout le problème de la mémoire
Les grands modèles locaux ne peuvent généralement pas fonctionner directement sur des cartes graphiques grand public avec des poids FP16 complets, c'est pourquoi les formats de quantification tels que GGUF, AWQ et GPTQ compresseront les poids en représentations plus petites. Q4, Q5, Q6 et Q8 représentent des compromis entre différentes précisions et tailles. Plus la précision est élevée, plus la qualité est stable et plus le taux d'occupation est élevé ; plus la précision est faible, plus l'occupation est faible, mais peut perdre la stabilité du raisonnement, les performances dans un contexte long ou les capacités de tâches complexes.
Pour l’utilisateur moyen, il n’est pas nécessaire de maîtriser au préalable tous les détails de la quantification. Un jugement plus pratique est le suivant : votre mémoire vidéo peut-elle être entièrement chargée ? Votre tâche est-elle sensible à la qualité ? Avez-vous besoin d'un contexte long ? Ces trois questions déterminent s’il faut privilégier Q4, Q5/Q6 ou Q8.
Q4 : Le choix d’entrée le plus courant
Les avantages du Q4 sont une faible occupation et une large plage de fonctionnement. De nombreux modèles 7B, 14B et même plus grands sont difficiles à intégrer dans le matériel de bureau classique sans un Q4. Le quatrième trimestre est souvent un point de départ raisonnable pour le chat, la synthèse, les explications de code légères et les capacités du modèle d'exploration.
Son inconvénient est que la perte de qualité est plus évidente et peut être plus instable, en particulier dans les contextes de raisonnement complexe, de mathématiques, de génération de code long et de plusieurs tours. Si l'utilisateur recherche « simplement courir », Q4 est un bon choix ; si l'utilisateur recherche une sortie stable, la priorité doit être donnée aux configurations de mémoire graphique Q5, Q6 ou supérieures.
Q5 et Q6 : Des desserts de qualité pour le plus grand nombre
Q5/Q6 est généralement un meilleur compromis pour une utilisation à long terme. Ils prennent plus de place que Q4, mais sont de qualité plus stable pour de nombreuses tâches et sont particulièrement adaptés à la programmation, aux résumés d'articles longs, aux questions-réponses sur les connaissances et aux scénarios qui nécessitent moins d'illusion. De nombreux utilisateurs locaux de LLM considéreront Q5_K_M ou Q6_K comme leur choix préféré pour une utilisation quotidienne.
Le mode d'égalisation de Local LLM devrait être plus biaisé vers ce type de version : ni choisir de force le Q8 instable pour la qualité, ni par défaut la quantification la plus basse pour économiser de la mémoire. Une fois que l'utilisateur a saisi la mémoire vidéo, la répartition de la mémoire dans les résultats recommandés peut aider à déterminer s'il reste encore de la place pour la quantification actuelle.
Q8 : La qualité est plus stable mais l’occupation est plus élevée
Q8 est proche d’une expérience de haute précision et convient généralement aux appareils dotés d’une mémoire graphique plus importante ou lorsque les utilisateurs choisissent explicitement de donner la priorité à la qualité. L'avantage est que la perte de quantification est plus petite et la sortie est plus stable ; l'inconvénient est que l'utilisation de la mémoire vidéo est proche de l'état de faible compression, ce qui réduira le cache KV et la marge d'exécution.
Si Q8 nécessite un déchargement partiel vers la mémoire CPU, l'expérience réelle peut ne pas être aussi bonne qu'une version moins quantifiée mais fonctionnant avec un GPU complet. Les systèmes de recommandation ne peuvent pas être triés uniquement en fonction de leur précision quantitative, mais doivent également prendre en compte les méthodes de fonctionnement, les plages de vitesse et les utilisations des utilisateurs.
Le contexte long modifie la quantification optimale
De nombreux utilisateurs ne regardent que le poids du modèle et ignorent le cache KV. Le cache KV augmente considérablement à mesure que le contexte passe de 4K à 32K puis à 128K. Un modèle Q6 pouvant fonctionner en 4K devra peut-être passer au Q4 ou passer à un modèle plus petit dans un contexte long.
Par conséquent, le mode « contexte long d’abord » ne doit pas simplement recommander le modèle le plus grand, mais doit conserver davantage de marge mémoire. Pour RAG, la lecture de documents longs et l'analyse de la base de code, un contexte de traitement stable est plus important que la qualité théorique d'une réponse unique.
Comment comprendre les préférences dans Local LLM
La priorité qualité tentera de sélectionner des candidats avec une qualité supérieure, des paramètres plus grands ou une quantification plus élevée ; l'équilibrage fera un compromis entre la qualité, la marge mémoire et la vitesse ; un contexte long sélectionnera de manière conservatrice une occupation plus petite pour empêcher le cache KV de consommer l'espace d'exécution.
C’est là que les blogs et les outils doivent fonctionner ensemble. L'article explique les compromis de base des T4/T5/T6/T8. L'outil fournit la version exécutable actuelle en fonction du matériel de l'utilisateur et des données du modèle Hugging Face, et pointe le lien de téléchargement vers la page du modèle correspondante.