Veamos primero la conclusión: la memoria de vídeo no es el único cuello de botella
Para determinar si se puede ejecutar un modelo grande local, no puede simplemente mirar los parámetros del modelo, ni solo los números de memoria de gráficos. Lo que realmente afecta la carga son los pesos del modelo, el formato de cuantificación, el caché KV, la sobrecarga del marco de ejecución, el uso en segundo plano del sistema y si algunas capas deben descargarse a la memoria de la CPU. Una versión Q4 del modelo 7B puede ser relajada, una versión 14B Q8 será ajustada; La misma memoria de video de 24 GB, si el contexto se pasa de 4K a 32K, el caché KV también consumirá el espacio disponible.
La idea recomendada para Local LLM es evaluar primero la capacidad de ejecución y luego ordenar por uso y calidad del modelo. Después de que el usuario ingresa la memoria de video, la memoria, el sistema y el uso, el backend estimará la ocupación del peso, el caché KV y el margen de ejecución. Si el modelo requiere una descarga parcial, la página aparecerá como parcialmente descargada, en lugar de ajustarla como "completamente ejecutable". Esto es importante para el usuario medio, porque poder cargar y ser utilizable son dos cosas diferentes.
De 6 GB a 8 GB: priorice modelos pequeños y de baja cuantificación
La memoria de vídeo de 6 GB a 8 GB es más adecuada para los modelos cuantificados Q4 o Q5 de 1B, 3B, 4B, 7B. Este rango puede satisfacer preguntas y respuestas livianas, explicación de código simple, resumen, traducción y uso personal de baja concurrencia, pero no es adecuado para incluir todos los modelos grandes populares. Los modelos de visión, los modelos multimodales y las tareas de contexto largo llegarán a la cima más rápido porque el codificador de imágenes y la caché KV también ocupan memoria.
Si el usuario sólo tiene 8 GB de memoria de vídeo, la página de recomendación debería ser más conservadora: en lugar de recomendar un modelo pequeño que pueda funcionar con la GPU completa, en lugar de clasificar un modelo de 30 B en una forma parcialmente desinstalada. La descarga parcial puede funcionar en algunos escenarios, pero la velocidad y la experiencia dependen de la CPU, el ancho de banda de la memoria, el PCIe, el backend de inferencia y la carga del sistema, y no puede usarse como la primera opción para los usuarios comunes.
12 GB a 16 GB: el punto óptimo para la mayoría de los usuarios de computadoras de escritorio
12 GB y 16 GB son configuraciones comunes para muchas tarjetas gráficas de consumo, como RTX 3060 de 12 GB, RTX 4070 de 12 GB y RTX 4060 Ti de 16 GB. Esta gama generalmente puede cubrir un lote de versiones cuantificadas Q4/Q5 de los modelos 7B a 14B, y hay espacio para opciones en programación, preguntas y respuestas generales y RAG liviano. Para los usuarios, la clave no es buscar el modelo más grande, sino encontrar una versión que pueda ejecutarse de manera estable, que no sea demasiado rápida y que tenga suficiente longitud de contexto.
En este rango, las elecciones cuantitativas afectarán directamente la experiencia. El Q4 es generalmente más fácil de instalar, el Q5/Q6 es más consistente pero ocupa más peso y el Q8 tiene una calidad cercana a la alta pero reduce significativamente el espacio libre. La página de Local LLM debería permitir al usuario ver la "memoria requerida" y el "modo de ejecución" en lugar de simplemente dar el nombre del modelo. De esta forma, los usuarios sabrán por qué los resultados recomendados tienen una clasificación más alta.
De 24 GB a 48 GB: comience a buscar mayor calidad y un contexto más prolongado
24 GB de memoria de video son un hito importante para el LLM local. Permite a los usuarios probar modelos más grandes 14B, 27B, 30B, 32B o ejecutar modelos 7B/14B en contextos más largos y de mayor cuantificación. Por encima de 48 GB es más adecuado para cuantificación de alta calidad, más espacio experimental, conmutación multimodelo y tareas de contexto más largas.
Pero una memoria de vídeo más grande todavía no significa que todos los modelos puedan usarse fácilmente. Los parámetros totales y los parámetros de activación del modelo MoE son diferentes. La estimación de la velocidad depende de los parámetros activos y de la lectura de la memoria; el modelo visual también considera el codificador de imágenes; El contexto largo aumentará el caché KV. El sistema de recomendación necesita analizar estas diferencias y mostrarlas para evitar que los usuarios piensen erróneamente que "si la memoria de video es lo suficientemente grande, debe ser rápida".
¿Cuándo es útil la descarga de memoria y CPU?
Cuando la memoria de video no es suficiente pero la memoria del sistema sí lo es, algunos backends pueden colocar algunas capas en la memoria de la CPU. Esto permite que el modelo se cargue, pero tiende a ralentizarse, especialmente si la tarjeta gráfica discreta necesita pasar por PCIe. La memoria unificada de Apple Silicon no tiene el mismo acantilado PCIe, pero aún se ve afectada por el ancho de banda de la memoria, el kernel Metal/MLX y la huella en segundo plano.
Por lo tanto, la página debe distinguir entre GPU completa, descarga parcial y solo CPU. Lo que más necesitan saber los usuarios comunes es: la ejecución completa de la GPU generalmente brinda la mejor experiencia; como alternativa se puede utilizar la descarga parcial; Solo CPU es adecuado principalmente para modelos pequeños o pruebas fuera de línea, y no es adecuado para experiencias de chat que esperan un alto rendimiento.
Cómo hacer selecciones con Local LLM
Después de ingresar la memoria de video y la memoria, primero verifique si las primeras son ejecuciones de GPU completas y luego observe la versión cuantificada y el intervalo de confianza de velocidad. Si el primer lugar es la desinstalación parcial, significa que tiene ventaja en calidad o popularidad de descarga, pero no necesariamente es la elección diaria con la mejor experiencia. Los usuarios pueden cambiar entre "Calidad primero, Equilibrado y Contexto largo" para observar los cambios en la clasificación.
Para las páginas de SEO, el objetivo del artículo no es memorizar todos los modelos para los usuarios, sino explicar la lógica de la toma de decisiones y hacer que los usuarios vuelvan a la herramienta recomendada. Una vez explicados claramente los conceptos de memoria de video, cuantificación, contexto y modo de operación, los usuarios pueden ingresar su propio hardware en la herramienta y los resultados obtenidos serán creíbles.