Local Vision and Multimodal Models

Questo articolo introduce i problemi aggiuntivi relativi alla memoria grafica, al codificatore di immagini, al contesto e al supporto back-end del ragionamento che devono essere considerati nei modelli visivi rispetto ai modelli di testo.

I modelli visivi hanno un costo in più rispetto ai modelli testuali

I modelli di visione locale non solo hanno un'ontologia del modello linguistico, ma spesso includono anche codificatori di immagini, livelli di proiezione, tokenizzatori speciali e modelli multimodali. Quando gli utenti vedono un modello visivo 7B, non possono semplicemente stimare la memoria video in base al modello testuale 7B. La risoluzione dell'immagine, il numero di immagini, i token visivi e la lunghezza del contesto influiscono tutti sulla memoria e sulla velocità effettive.

Questo è il motivo per cui quando viene selezionato "visivo/multimodale" per lo scopo, il sistema di raccomandazione deve vagliare modelli con indizi reali come visione, vl, llava, immagine, ecc. Raccomandare un modello di solo testo per attività visive, anche se può essere eseguito, non può realizzare ciò che l'utente vuole fare.

Quali compiti sono adatti ai modelli di visione locale

Il modello visivo locale è adatto per la descrizione delle immagini, la comprensione degli screenshot, la spiegazione semplice dei diagrammi, la procedura dettagliata dell'interfaccia utente, l'assistenza OCR, l'analisi delle immagini del prodotto e la comprensione leggera dei documenti. I suoi vantaggi sono la privacy e la controllabilità locale e non è necessario caricare le immagini su servizi di terze parti; i suoi svantaggi sono che la velocità, la precisione e il ragionamento visivo complesso non sono generalmente buoni quanto i grandi modelli multimodali nel cloud.

Se l'utente riconosce le immagini solo occasionalmente, è possibile scegliere un piccolo modello multimodale; se l'utente desidera analizzare frequentemente screenshot o documenti, sono necessari più memoria, un migliore supporto back-end e un formato di modello stabile.

Come stimare la memoria video e il contesto

L'impronta della memoria video del modello visivo include pesi del modello linguistico, codificatori di immagini, cache KV e sovraccarico di esecuzione. Le immagini vengono convertite in token visivi, che vanno anch'essi nel budget del contesto. Immagini multiple, risoluzioni più elevate o messaggi di testo lunghi possono aumentare il consumo.

Pertanto, 8 GB di memoria video sono più adatti per modelli visivi di piccole dimensioni, 12 GB/16 GB possono provare più modelli multimodali di livello 7B e 24 GB o più sono più adatti per attività visive con qualità superiore o contesto più lungo. Gli utenti della memoria unificata Apple dovrebbero anche lasciare un margine per l'elaborazione grafica e di sistema.

Il supporto backend è più importante del nome del modello

Non tutti i backend nativi supportano allo stesso modo i modelli visivi. Ollama, LM Studio, llama.cpp, MLX hanno un supporto incoerente per diverse architetture, modelli e formati di input di immagini. Esistono pesi del modello su Hugging Face, ma ciò non significa che il tuo strumento attuale possa essere eseguito con un clic.

La pagina dei suggerimenti dovrebbe fornire all'utente il collegamento Hugging Face, consentendogli di accedere alla pagina del modello per visualizzare file, istruzioni ed esempi. In futuro, potrai anche aggiungere un campo "strumento di esecuzione supportato" al modello visivo per ridurre la situazione in cui gli utenti lo trovano inutilizzabile dopo il download.

Come evitare raccomandazioni errate

Per scopi visivi, lo screening del modello deve innanzitutto determinare le capacità dell'attività e quindi determinare l'adattamento dell'hardware. Anche se un modello di solo testo ha un punteggio elevato, non dovrebbe essere in prima linea nei consigli visivi. Al contrario, un modello con un basso volume di download ma che supporta esplicitamente l'input di immagini può soddisfare meglio le esigenze degli utenti rispetto a un modello di testo popolare.

Tali regole dovrebbero essere scritte nel back-end, non solo spiegate nella copia front-end. Quando un utente seleziona un modello di visione, l'elenco dei risultati dovrebbe mostrare chiaramente l'etichetta "Visivo/Multimodale", l'origine del modello, la lunghezza del contesto, la versione quantizzata e i requisiti di memoria.

Quali termini di ricerca dovrebbe coprire la tua pagina SEO?

Questo articolo può coprire intenzioni di ricerca come "Come eseguire un modello visivo locale", "Quanta memoria video è richiesta per un modello multimodale", "distribuzione locale llava", "Operazione locale Qwen VL". Successivamente è possibile continuare a suddividere serie di modelli specifici, strumenti specifici e configurazioni di memoria video specifiche.

Più specifico è il contenuto, più facile sarà per gli utenti rimanere e fare clic sullo strumento. Un breve articolo fornisce solo concetti e non può risolvere i problemi degli utenti; un lungo articolo deve spiegare chiaramente l'hardware, il formato del modello, il backend in esecuzione, gli errori comuni, gli esempi di modello, gli scenari applicabili e i passaggi successivi.

Come eseguire il modello di visione locale e il modello multimodale?