Local Vision and Multimodal Models

Cet article présente les problèmes supplémentaires de mémoire graphique, d'encodeur d'image, de contexte et de prise en charge du raisonnement qui doivent être pris en compte dans les modèles visuels par rapport aux modèles textuels.

Les modèles visuels ont un niveau de coût supplémentaire par rapport aux modèles textuels

Les modèles de vision locale ont non seulement une ontologie de modèle de langage, mais incluent également souvent des encodeurs d'images, des couches de projection, des tokeniseurs spéciaux et des modèles multimodaux. Lorsque les utilisateurs voient un modèle visuel 7B, ils ne peuvent pas simplement estimer la mémoire vidéo sur la base du modèle textuel 7B. La résolution de l'image, le nombre d'images, les jetons visuels et la longueur du contexte affectent tous la mémoire et la vitesse réelles.

C'est pourquoi lorsque « visuel/multimodal » est sélectionné à cet effet, le système de recommandation doit filtrer les modèles avec des indices réels tels que la vision, le vl, la lave, l'image, etc. Recommander un modèle textuel uniquement à des tâches visuelles, même s'il peut s'exécuter, ne peut pas accomplir ce que l'utilisateur veut faire.

Quelles tâches conviennent aux modèles de vision locale

Le modèle visuel local convient à la description d'images, à la compréhension de captures d'écran, à l'explication de diagrammes simples, à la présentation de l'interface utilisateur, à l'assistance OCR, à l'analyse d'images de produits et à la compréhension de documents légers. Ses avantages sont la confidentialité et la contrôlabilité locale, et les images n'ont pas besoin d'être téléchargées vers des services tiers ; ses inconvénients sont que la vitesse, la précision et le raisonnement visuel complexe ne sont généralement pas aussi performants que les grands modèles multimodaux dans le cloud.

Si l'utilisateur ne reconnaît qu'occasionnellement des images, vous pouvez choisir un petit modèle multimodal ; si l'utilisateur souhaite analyser fréquemment des captures d'écran ou des documents, plus de mémoire, une meilleure prise en charge back-end et un format de modèle stable sont nécessaires.

Comment estimer la mémoire vidéo et le contexte

L'empreinte mémoire vidéo du modèle visuel comprend les poids du modèle de langage, les encodeurs d'images, le cache KV et la surcharge d'exécution. Les images sont converties en jetons visuels, qui entrent également dans le budget contextuel. Plusieurs images, des résolutions plus élevées ou des invites de texte longues peuvent toutes augmenter la consommation.

Par conséquent, 8 Go de mémoire vidéo sont plus adaptés aux petits modèles visuels, 12 Go/16 Go peuvent essayer davantage de modèles multimodaux de niveau 7B et 24 Go ou plus sont plus adaptés aux tâches visuelles avec une qualité supérieure ou un contexte plus long. Les utilisateurs de mémoire unifiée Apple doivent également prévoir une marge pour le traitement du système et des graphiques.

La prise en charge du backend est plus importante que le nom du modèle

Tous les backends natifs ne prennent pas en charge les modèles visuels de la même manière. Ollama, LM Studio, llama.cpp et MLX prennent en charge de manière incohérente différentes architectures, modèles et formats d'entrée d'image. Il existe des poids de modèle sur Hugging Face, mais cela ne signifie pas que votre outil actuel peut être exécuté en un seul clic.

La page de recommandation doit donner le lien Hugging Face à l'utilisateur, lui permettant d'accéder à la page du modèle pour afficher des fichiers, des instructions et des exemples. À l'avenir, vous pourrez également ajouter un champ « outil d'exécution pris en charge » au modèle visuel pour réduire la situation dans laquelle les utilisateurs le trouvent inutilisable après le téléchargement.

Comment éviter les mauvaises recommandations

À des fins visuelles, la sélection du modèle doit d'abord déterminer les capacités des tâches, puis déterminer l'adaptation du matériel. Même si un modèle textuel obtient un score élevé, il ne doit pas figurer au premier plan des recommandations visuelles. Au contraire, un modèle avec un faible volume de téléchargement mais prenant explicitement en charge la saisie d’images peut mieux répondre aux besoins des utilisateurs qu’un modèle de texte populaire.

Ces règles doivent être écrites dans le back-end, et pas seulement expliquées dans la copie front-end. Lorsqu'un utilisateur sélectionne un modèle de vision, la liste des résultats doit clairement afficher l'étiquette « Visuel/Multimodal », la source du modèle, la longueur du contexte, la version quantifiée et les besoins en mémoire.

Quels termes de recherche votre page SEO doit-elle couvrir ?

Cet article peut couvrir des intentions de recherche telles que « Comment exécuter un modèle visuel local », « Quelle quantité de mémoire vidéo est requise pour un modèle multimodal », « Déploiement local llava », « Opération locale Qwen VL ». Plus tard, vous pourrez continuer à décomposer des séries de modèles spécifiques, des outils spécifiques et des configurations de mémoire vidéo spécifiques.

Plus le contenu est spécifique, plus il est facile pour les utilisateurs de rester et de cliquer sur l'outil. Un court article ne donne que des concepts et ne peut pas résoudre les problèmes des utilisateurs ; un long article doit expliquer clairement le matériel, le format du modèle, le backend en cours d'exécution, les erreurs courantes, les exemples de modèles, les scénarios applicables et les prochaines étapes.

Comment exécuter un modèle de vision locale et un modèle multimodal ?