Hub del blog

Blog Local LLM

Guide pratiche su VRAM, Mac, quantizzazione, modelli di coding e modelli vision locali.

Guida alla memoria video

Quali modelli locali di grandi dimensioni possono essere eseguiti con memorie grafiche diverse?

Da 6 GB, 8 GB, 12 GB, da 24 GB a 48 GB, spiegare come il volume dei parametri del modello, la versione quantizzata, la cache KV e l'overhead del sistema si combinano per determinare se può essere caricato.

Leggi articolo

Patatina di mela

In che modo Apple Unified Memory influisce sul LLM locale?

Spiega perché la memoria totale del Mac non può essere utilizzata come memoria video e come scegliere il modello adatto per macchine da 16 GB, 32 GB, 64 GB e 128 GB.

Leggi articolo

Quantificare

Q4, Q5, Q6, Q8 Come dovrei scegliere la quantificazione?

La quantificazione GGUF più comune dell'utilizzo della memoria, della perdita di qualità e del compromesso di velocità aiuta gli utenti a comprendere le tre preferenze di priorità di qualità, equilibrio e contesto lungo.

Leggi articolo

modello di programmazione

Come scegliere un LLM locale adatto alla programmazione?

Dai quattro scenari di generazione, interpretazione, ricostruzione e contesto lungo del codice, spiega perché gli scopi della programmazione non possono limitarsi a guardare alle dimensioni del modello e al volume di download.

Leggi articolo

multimodale

Come eseguire il modello di visione locale e il modello multimodale?

Questo articolo introduce i problemi aggiuntivi relativi alla memoria grafica, al codificatore di immagini, al contesto e al supporto back-end del ragionamento che devono essere considerati nei modelli visivi rispetto ai modelli di testo.

Leggi articolo

Selezione dello strumento

Quali sono le differenze tra Ollama, LM Studio e llama.cpp?

Spiega agli utenti ordinari l'esperienza di installazione, la gestione del modello, l'ottimizzazione delle prestazioni e i gruppi applicabili di tre metodi di esecuzione locali comuni.

Leggi articolo

Guida VRAM

6 GB di VRAM bastano per un LLM locale?

Cosa può eseguire una GPU da 6 GB, quali quantizzazioni hanno senso e quando conviene aggiornare.

Leggi articolo

Guida hardware

Migliore GPU per LLM locali: cosa conta

Come scegliere una GPU per inferenza locale in base a VRAM, banda, supporto software e modelli.

Leggi articolo

Scelta del modello

Quale LLM locale posso eseguire?

Abbina RAM, VRAM, sistema operativo, uso e qualità ai modelli davvero eseguibili.

Leggi articolo

Guida ai modelli

Modelli Local LLM spiegati: dimensioni, formati e compromessi

Una guida pratica alle famiglie di modelli Local LLM, al numero di parametri, ai file GGUF, ai livelli di quantizzazione, alla lunghezza del contesto e a come scegliere un modello adatto al tuo hardware.

Leggi articolo

Guida hardware

Quanta VRAM serve per un Local LLM?

Una guida hardware-first ai requisiti di VRAM per i Local LLM, inclusi pesi del modello, quantizzazione, KV cache, lunghezza del contesto, overhead di runtime e fasce GPU realistiche.

Leggi articolo

Guida Windows

Eseguire un LLM localmente su Windows: hardware, strumenti e setup

Una guida pratica per Windows per eseguire Local LLM con Ollama, LM Studio, llama.cpp, driver GPU, selezione del modello, pianificazione della VRAM e passaggi comuni di troubleshooting.

Leggi articolo

guida macOS

Eseguire un LLM localmente su macOS: Apple Silicon, memoria e strumenti

Una guida pratica per macOS per eseguire Local LLM su Apple Silicon, con memoria unificata, MLX, Metal, Ollama, LM Studio, llama.cpp, scelta del modello e limiti realistici.

Leggi articolo

Guida Linux

Eseguire un LLM localmente su Linux: GPU, driver, strumenti e configurazione

Una guida pratica per Linux per eseguire LLM locali con NVIDIA CUDA, AMD ROCm, Ollama, LM Studio, llama.cpp, formati dei modelli, pianificazione della VRAM e sicurezza del server.

Leggi articolo

Guida ai modelli

Migliori modelli di local AI: come scegliere cosa eseguire sul tuo hardware

Una guida pratica alla scelta dei migliori modelli di local AI per chat, coding, scrittura, matematica, visione e uso offline in base ad adattamento all'hardware, quantizzazione, benchmark e formato del modello.

Leggi articolo

Guida ai modelli

Migliori modelli Local LLM: come scegliere quello giusto

Una guida pratica per scegliere i migliori modelli Local LLM per il tuo hardware, inclusi dimensione del modello, quantizzazione, file GGUF, coding, scrittura, ragionamento, visione e compatibilità con la memoria.

Leggi articolo

Guida ai modelli

Miglior LLM da eseguire in locale: una guida pratica orientata all’hardware

Una guida pratica per trovare il miglior LLM da eseguire localmente sul tuo computer, in base a VRAM, RAM, sistema operativo, dimensione del modello, quantizzazione, velocità, privacy e caso d’uso.

Leggi articolo

Guida comparativa

Local LLM vs cloud LLM: quale dovresti usare?

Un confronto pratico tra local LLM e cloud LLM su privacy, costi, velocità, qualità, hardware, uso offline, manutenzione e flussi di lavoro reali.

Leggi articolo

Guida al modello

Local AI Guida al modello: come scegliere cosa eseguire sul tuo computer

Una guida pratica ai modelli di intelligenza artificiale locali, che copre LLM, modelli di visione, incorporamenti, adattamento dell'hardware, quantizzazione, privacy, strumenti e scelte di download.

Leggi articolo

Offline AI

Offline AI: Cosa può essere eseguito localmente senza il cloud?

Una guida pratica su cosa può fare l'intelligenza artificiale offline a livello locale, tra cui chat, codifica, scrittura, riepilogo, incorporamenti, visione, limiti hardware e compromessi sulla privacy.

Leggi articolo

Guida per principianti

Local LLM per principianti: hardware, modelli e primi passi

Una guida per principianti ai LLM locali, che spiega hardware, VRAM, RAM, quantizzazione, file di modello, strumenti, privacy e come scegliere un primo modello.

Leggi articolo

Guida all'installazione

Local LLM Elenco di controllo per la configurazione: hardware, modelli, strumenti e sicurezza

Un pratico elenco di controllo di configurazione per l'esecuzione di un LLM locale, che copre hardware, VRAM, RAM, scelta del modello, quantizzazione, strumenti, server locali, test e sicurezza.

Leggi articolo

Domande frequenti

Local LLM Domande frequenti: risposte prima di scaricare un modello

Risposte chiare alle domande LLM locali più comuni su VRAM, RAM, GPU scelta, quantizzazione, privacy, velocità, utilizzo offline, strumenti e download di modelli.

Leggi articolo

Guida agli strumenti

Cursor con Local LLM: cosa funziona, cosa non funziona e come scegliere un modello

Una guida pratica all'utilizzo di Cursor con un LLM locale, che copre Ollama, LM Studio, OpenAI-compatible endpoints, modelli di codifica, limiti hardware, velocità, privacy e controlli di configurazione.

Leggi articolo

Guida agli strumenti

Come utilizzare i modelli locali con Cursor.ai: configurazione, limiti e scelta del modello

Una pratica guida al modello locale Cursor.ai che copre endpoint OpenAI-compatible, Ollama, LM Studio, modelli di codifica, limiti hardware, privacy, velocità e risoluzione dei problemi.

Leggi articolo

Selezione del modello

Il miglior Local LLM per Cursor: come scegliere un modello di codifica che aiuti effettivamente

Una guida hardware-first per scegliere il miglior LLM locale per Cursor, che copre qualità di codifica, contesto, velocità, quantizzazione, VRAM, privacy e test pratici.

Leggi articolo

Guida agli strumenti

LM Studio Local LLM Guida: modelli, configurazione del server, hardware e sicurezza

Una pratica guida LLM locale LM Studio che copre i download dei modelli, le scelte GGUF e MLX, la configurazione del server OpenAI-compatible, l'adattamento dell'hardware, la privacy e i test.

Leggi articolo