Local LLM

Hub del blog

Blog Local LLM

Guide pratiche su VRAM, Mac, quantizzazione, modelli di coding e modelli vision locali.

Guida alla memoria video

Quali modelli locali di grandi dimensioni possono essere eseguiti con memorie grafiche diverse?

Da 6 GB, 8 GB, 12 GB, da 24 GB a 48 GB, spiegare come il volume dei parametri del modello, la versione quantizzata, la cache KV e l'overhead del sistema si combinano per determinare se può essere caricato.

Leggi articolo

Patatina di mela

In che modo Apple Unified Memory influisce sul LLM locale?

Spiega perché la memoria totale del Mac non può essere utilizzata come memoria video e come scegliere il modello adatto per macchine da 16 GB, 32 GB, 64 GB e 128 GB.

Leggi articolo

Quantificare

Q4, Q5, Q6, Q8 Come dovrei scegliere la quantificazione?

La quantificazione GGUF più comune dell'utilizzo della memoria, della perdita di qualità e del compromesso di velocità aiuta gli utenti a comprendere le tre preferenze di priorità di qualità, equilibrio e contesto lungo.

Leggi articolo

modello di programmazione

Come scegliere un LLM locale adatto alla programmazione?

Dai quattro scenari di generazione, interpretazione, ricostruzione e contesto lungo del codice, spiega perché gli scopi della programmazione non possono limitarsi a guardare alle dimensioni del modello e al volume di download.

Leggi articolo

multimodale

Come eseguire il modello di visione locale e il modello multimodale?

Questo articolo introduce i problemi aggiuntivi relativi alla memoria grafica, al codificatore di immagini, al contesto e al supporto back-end del ragionamento che devono essere considerati nei modelli visivi rispetto ai modelli di testo.

Leggi articolo

Selezione dello strumento

Quali sono le differenze tra Ollama, LM Studio e llama.cpp?

Spiega agli utenti ordinari l'esperienza di installazione, la gestione del modello, l'ottimizzazione delle prestazioni e i gruppi applicabili di tre metodi di esecuzione locali comuni.

Leggi articolo