Local LLM VRAM Guide

De 6 Go, 8 Go, 12 Go, 24 Go à 48 Go, expliquez comment le volume des paramètres du modèle, la version quantifiée, le cache KV et la surcharge du système se combinent pour déterminer s'il peut être chargé.

Voyons d’abord la conclusion : la mémoire vidéo n’est pas le seul goulot d’étranglement

Pour déterminer si un grand modèle local peut s'exécuter, vous ne pouvez pas simplement examiner les paramètres du modèle, ni uniquement les numéros de mémoire graphique. Ce qui affecte réellement le chargement, ce sont les poids du modèle, le format de quantification, le cache KV, la surcharge du framework d'exécution, l'utilisation en arrière-plan du système et la nécessité ou non de décharger certaines couches vers la mémoire du processeur. Une version Q4 du modèle 7B pourra être assouplie, une version 14B Q8 sera serrée ; la même mémoire vidéo de 24 Go, si le contexte passe de 4K à 32K, le cache KV consommera également l'espace disponible.

L'idée recommandée pour Local LLM est de faire d'abord un jugement d'exécution, puis de trier par utilisation et qualité du modèle. Une fois que l'utilisateur a saisi la mémoire vidéo, la mémoire, le système et l'utilisation, le backend estimera l'occupation du poids, le cache KV et la marge courante. Si le modèle nécessite un déchargement partiel, la page apparaîtra comme partiellement déchargée, plutôt que de la rendre « complètement exécutable ». Ceci est important pour l’utilisateur moyen, car pouvoir charger et être utilisable sont deux choses différentes.

6 Go à 8 Go : privilégiez les petits modèles et la faible quantification

Une mémoire vidéo de 6 Go à 8 Go est plus adaptée aux modèles quantifiés Q4 ou Q5 de 1B, 3B, 4B, 7B. Cette gamme peut satisfaire des questions et réponses légères, une explication de code simple, un résumé, une traduction et un usage personnel à faible concurrence, mais elle ne convient pas pour y intégrer tous les grands modèles populaires. Les modèles de vision, les modèles multimodaux et les tâches à contexte long atteindront le sommet plus rapidement car l'encodeur d'image et le cache KV occupent également de la mémoire.

Si l'utilisateur ne dispose que de 8 Go de mémoire vidéo, la page de recommandations devrait être plus conservatrice : recommandez plutôt un petit modèle pouvant fonctionner sur le GPU complet, plutôt que de classer un modèle 30 Go sous une forme partiellement désinstallée. Le déchargement partiel peut fonctionner dans certains scénarios, mais la vitesse et l'expérience dépendent du processeur, de la bande passante mémoire, du PCIe, du backend d'inférence et de la charge du système, et ne peuvent pas être utilisées comme réponse de premier choix pour les utilisateurs ordinaires.

12 Go à 16 Go : la solution idéale pour la plupart des utilisateurs d’ordinateurs de bureau

12 Go et 16 Go sont des configurations courantes pour de nombreuses cartes graphiques grand public, telles que RTX 3060 12 Go, RTX 4070 12 Go et RTX 4060 Ti 16 Go. Cette gamme peut généralement couvrir un lot de versions quantifiées Q4/Q5 des modèles 7B à 14B, et il y a de la place pour des options de programmation, de questions-réponses générales et de RAG léger. Pour les utilisateurs, la clé n’est pas de rechercher le modèle le plus large, mais de trouver une version qui puisse fonctionner de manière stable, qui ne soit pas trop rapide et qui ait une longueur de contexte suffisante.

Dans cette fourchette, les choix quantitatifs affecteront directement l’expérience. Le Q4 est généralement plus facile à installer, le Q5/Q6 est plus cohérent mais prend plus de poids, et le Q8 est proche de la haute qualité mais réduit considérablement la hauteur sous plafond. La page de Local LLM devrait permettre à l'utilisateur de voir la « mémoire requise » et le « mode d'exécution » au lieu de simplement donner un nom de modèle. De cette façon, les utilisateurs sauront pourquoi les résultats recommandés sont mieux classés.

24 Go à 48 Go : commencez à rechercher une qualité supérieure et un contexte plus long

24 Go de mémoire vidéo constituent un tournant important pour le LLM local. Il permet aux utilisateurs d'essayer des modèles 14B, 27B, 30B, 32B plus grands, ou d'exécuter des modèles 7B/14B dans une quantification plus élevée et des contextes plus longs. Au-dessus de 48 Go, il est plus adapté à une quantification de haute qualité, à davantage d'espace expérimental, à une commutation multimodèle et à des tâches contextuelles plus longues.

Mais une mémoire vidéo plus grande ne signifie pas pour autant que tous les modèles peuvent être utilisés facilement. Les paramètres totaux et les paramètres d'activation du modèle MoE sont différents. L'estimation de la vitesse dépend des paramètres actifs et de la lecture de la mémoire ; le modèle visuel prend également en compte l'encodeur d'image ; un contexte long augmentera le cache KV. Le système de recommandation doit décomposer ces différences et les afficher pour éviter que les utilisateurs ne pensent à tort que « si la mémoire vidéo est suffisamment grande, elle doit être rapide ».

Quand le déchargement de la mémoire et du processeur est-il utile ?

Lorsque la mémoire vidéo n'est pas suffisante mais que la mémoire système est suffisante, certains backends peuvent placer certaines couches dans la mémoire CPU. Cela permet au modèle de se charger, mais a tendance à ralentir, surtout si la carte graphique discrète doit passer par PCIe. La mémoire unifiée d'Apple Silicon n'a pas la même falaise PCIe, mais est toujours affectée par la bande passante mémoire, le noyau Metal/MLX et l'empreinte en arrière-plan.

La page doit donc faire la distinction entre le GPU complet, le déchargement partiel et le CPU uniquement. Ce que les utilisateurs ordinaires doivent le plus savoir, c'est : l'exécution d'un GPU complet offre généralement la meilleure expérience ; un déchargement partiel peut être utilisé comme alternative ; Le processeur uniquement convient principalement aux petits modèles ou aux tests hors ligne, et ne convient pas aux expériences de chat qui attendent un débit élevé.

Comment faire des sélections avec Local LLM

Après avoir entré la mémoire vidéo et la mémoire, vérifiez d'abord si les premiers sont des exécutions complètes du GPU, puis examinez la version quantifiée et l'intervalle de confiance de vitesse. Si la désinstallation partielle est en premier lieu, cela signifie qu'elle présente un avantage en termes de qualité ou de popularité de téléchargement, mais ce n'est pas nécessairement le choix quotidien avec la meilleure expérience. Les utilisateurs peuvent basculer entre « Qualité d'abord, Équilibré, Contexte long » pour observer les changements de classement.

Pour les pages SEO, le but de l’article n’est pas de mémoriser tous les modèles pour les utilisateurs, mais d’expliquer la logique de prise de décision et de ramener les utilisateurs vers l’outil recommandé. Une fois les concepts de mémoire vidéo, de quantification, de contexte et de mode de fonctionnement clairement expliqués, les utilisateurs peuvent saisir leur propre matériel dans l'outil et les résultats obtenus seront crédibles.

Quels grands modèles locaux peuvent être exécutés avec différentes mémoires graphiques ?