¿Cómo afecta la Memoria Unificada de Apple el LLM local?

Explique por qué la memoria total de Mac no se puede utilizar como memoria de vídeo y cómo elegir el modelo adecuado para máquinas de 16 GB, 32 GB, 64 GB y 128 GB.

La memoria unificada no significa que "se puedan utilizar todos los modelos"

La memoria unificada de Apple Silicon es utilizada por la CPU, la GPU, el sistema, las aplicaciones y los servicios en segundo plano. Su ventaja es que la CPU y la GPU comparten la misma memoria de alta velocidad y la experiencia de implementación de muchas herramientas de modelos locales es más simple que la de las tarjetas gráficas independientes tradicionales; pero eso no significa que todos los 32 GB, 64 GB o 128 GB puedan usarse como espacio de peso del modelo.

Al seleccionar un modelo, debe dejar espacio para macOS, navegadores, IDE, servicios de inferencia, cachés KV y tensores temporales. Si una Mac de 32 GB pesa el modelo a 28 GB, puede parecer que simplemente cabe. Sin embargo, en el funcionamiento real, la memoria puede comprimirse con frecuencia, cambiarse al disco o la velocidad puede disminuir significativamente. El LLM local estima el espacio disponible de manera más conservadora en el modo Mac.

¿Para qué son adecuados los de 16 GB, 32 GB, 64 GB y 128 GB?

La Mac de 16 GB es más adecuada para modelos pequeños y cuantificación baja a media, como las versiones Q4/Q5 de 3B, 4B y 7B. Puede satisfacer chat liviano, resumen, traducción y asistencia de código simple, pero no es adecuado para contextos extensos o modelos visuales. 32 GB pueden cubrir más modelos 7B/14B y también pueden probar versiones cuantificadas más estables, que es un punto de partida común para los desarrolladores comunes.

Después de 64 GB, los usuarios pueden probar modelos MoE o 30 B más grandes, que también pueden dejar espacio para contextos largos y multitarea. 128 GB son adecuados para experimentos de mayor alcance, como modelos grandes altamente cuantificados, comparaciones de versiones de múltiples modelos, contextos extensos y flujos de trabajo locales complejos. Pero incluso con 128 GB, aún es necesario observar los pesos de los modelos, la caché KV, el backend y la velocidad.

Diferencias entre Metal, MLX y llama.cpp

Los backends comunes en Mac incluyen llama.cpp Metal, MLX, Ollama y LM Studio. Las optimizaciones subyacentes de estas herramientas son diferentes y la velocidad del mismo modelo en diferentes backends puede ser diferente. El modelo MoE se basa particularmente en la implementación del kernel y la velocidad no se puede inferir utilizando únicamente cantidades de parámetros.

Por lo tanto, el tok/s en la página de recomendaciones debe ser una estimación o rango conservador, no una promesa absoluta. Lo que los usuarios realmente necesitan es una dirección de detección: qué modelos se pueden cargar con una alta probabilidad, qué modelos requieren más memoria y qué modelos solo pueden ejecutarse teóricamente pero tienen una experiencia inestable.

Por qué 128 GB deberían desbloquear el modelo más grande

Si 32 GB, 64 GB y 128 GB ofrecen exactamente la misma recomendación de calidad, generalmente significa que el algoritmo de clasificación no está aprovechando adecuadamente el cambio de capacidad. Una memoria unificada más grande debería permitir que modelos con mayores recuentos de parámetros, mayor cuantificación o contexto más largo ingresen al conjunto de candidatos. Los modelos que priorizan la calidad en particular deberían reflejar esto.

Pero "más grande" tampoco es el único objetivo. Los sistemas de recomendación deben clasificar entre calidad del modelo, coincidencia de tareas, modo de ejecución, confianza en la velocidad y margen de memoria. Una Mac de 128 GB puede ejecutar modelos más grandes, pero eso no significa que el modelo más grande deba recomendarse ciegamente para cada escenario; las mejores opciones para tareas de programación, generales, matemáticas y visuales pueden ser diferentes.

¿Qué deberían elegir los usuarios de Mac?

Los usuarios normales pueden empezar con el modo equilibrado. Si los resultados son ejecuciones completas de GPU/memoria unificada, la configuración es estable; Si una gran cantidad de resultados muestran una descarga parcial o una velocidad de confianza baja, debe reducir la cuantificación, acortar el contexto o elegir un modelo más pequeño. Al realizar tareas de programación, las capacidades del código y la longitud del contexto del modelo son importantes; Al realizar tareas visuales, asegúrese de que el modelo sea realmente un modelo multimodal.

El valor de Local LLM radica en convertir estos juicios en información visual, en lugar de permitir que los usuarios adivinen uno por uno en Hugging Face. La publicación del blog explica los principios y la herramienta combina la lista de modelos en vivo con el hardware del usuario para brindar recomendaciones actuales.