P4, P5, P6, P8 ¿Cómo debo elegir la cuantificación?

La cuantificación GGUF más común del uso de memoria, la pérdida de calidad y la compensación de velocidad ayuda a los usuarios a comprender las tres preferencias de prioridad de calidad, equilibrio y contexto largo.

La cuantificación resuelve el problema de la memoria

Los modelos locales grandes generalmente no pueden ejecutarse directamente en tarjetas gráficas de consumo con pesos FP16 completos, por lo que los formatos de cuantificación como GGUF, AWQ y GPTQ comprimirán los pesos en representaciones más pequeñas. Q4, Q5, Q6 y Q8 representan compensaciones de diferentes precisiones y tamaños. Cuanto mayor sea la precisión, más estable será la calidad y mayor será la ocupación; cuanto menor sea la precisión, menor será la ocupación, pero puede perder estabilidad de razonamiento, rendimiento en contextos prolongados o capacidades de tareas complejas.

Para el usuario medio, no es necesario dominar primero todos los detalles de la cuantificación. Un juicio más práctico es: ¿se puede cargar completamente la memoria de video? ¿Su tarea es sensible a la calidad? ¿Necesitas un contexto largo? Estas tres preguntas determinan si se debe favorecer el cuarto trimestre, el quinto/sexto trimestre o el octavo trimestre.

P4: La opción de entrada más común

Las ventajas del Q4 son la baja ocupación y el amplio rango operativo. Es difícil acceder a muchos de los modelos 7B, 14B e incluso más grandes en hardware de escritorio normal sin un Q4. El cuarto trimestre suele ser un punto de partida razonable para el chat, el resumen, las explicaciones de código ligero y las capacidades del modelo de exploración.

Su desventaja es que la pérdida de calidad es más obvia y puede ser más inestable, especialmente en razonamiento complejo, matemáticas, generación de código largo y contextos de rondas múltiples. Si el usuario busca "simplemente correr", el cuarto trimestre es una buena opción; Si el usuario busca una salida estable, se debe dar prioridad a configuraciones de memoria gráfica Q5, Q6 o superiores.

P5 y P6: Postres de calidad para la mayoría de las personas

Q5/Q6 suele ser un mejor compromiso para un uso a largo plazo. Ocupan más espacio que el cuarto trimestre, pero su calidad es más estable para muchas tareas y son especialmente adecuados para programación, resúmenes de artículos largos, preguntas y respuestas sobre conocimientos y escenarios que requieren menos ilusión. Muchos usuarios locales de LLM considerarán Q5_K_M o Q6_K como su opción preferida para el uso diario.

El modo de ecualización de Local LLM debería estar más sesgado hacia este tipo de versión: ni elegir a la fuerza el inestable Q8 por calidad, ni utilizar de forma predeterminada la cuantificación más baja para ahorrar memoria. Después de que el usuario ingresa la memoria de video, la división de la memoria en los resultados recomendados puede ayudar a determinar si todavía hay espacio para la cuantización actual.

P8: La calidad es más estable pero la ocupación es mayor

Q8 se acerca a una experiencia de alta precisión y suele ser adecuado para dispositivos con mayor memoria gráfica o cuando los usuarios eligen explícitamente priorizar la calidad. La ventaja es que la pérdida de cuantificación es menor y la salida es más estable; la desventaja es que el uso de la memoria de video está cerca del estado de baja compresión, lo que reducirá el caché KV y el margen de ejecución.

Si Q8 requiere una descarga parcial a la memoria de la CPU, la experiencia real puede no ser tan buena como la de una versión menos cuantificada pero con GPU completa. Los sistemas de recomendación no pueden clasificarse únicamente por su precisión cuantitativa, sino que también deben considerar los métodos operativos, los rangos de velocidad y los usos de los usuarios.

El contexto largo cambia la cuantificación óptima

Muchos usuarios solo miran el peso del modelo e ignoran el caché KV. La caché KV aumenta significativamente a medida que el contexto pasa de 4K a 32K y a 128K. Es posible que un modelo Q6 que puede funcionar a 4K deba cambiarse a Q4 o cambiar a un modelo más pequeño en un contexto prolongado.

Por lo tanto, el modo "primero el contexto largo" no debería simplemente recomendar el modelo más grande, sino que debería retener más margen de memoria. Para RAG, lectura de documentos largos y análisis de base de código, el contexto de procesamiento estable es más importante que la calidad teórica de una única respuesta.

Cómo entender las preferencias en Local LLM

La prioridad de calidad intentará seleccionar candidatos con mayor calidad, mayores parámetros o mayor cuantificación; el equilibrio comprometerá la calidad, el margen de memoria y la velocidad; El contexto largo seleccionará de forma conservadora una ocupación menor para evitar que la caché KV consuma el espacio en ejecución.

Aquí es donde los blogs y las herramientas deberían trabajar juntos. El artículo explica las compensaciones básicas del cuarto trimestre, el quinto trimestre, el sexto trimestre y el octavo trimestre. La herramienta proporciona la versión ejecutable actual basada en el hardware del usuario y los datos del modelo de Hugging Face, y apunta el enlace de descarga a la página del modelo correspondiente.