Как Apple Unified Memory влияет на локальный LLM?

Объясните, почему всю память Mac нельзя использовать в качестве видеопамяти и как выбрать подходящую модель для компьютеров с памятью 16 ГБ, 32 ГБ, 64 ГБ и 128 ГБ.

Единая память не означает, что «можно использовать все модели»

Единая память Apple Silicon используется процессором, графическим процессором, системой, приложениями и фоновыми службами. Его преимущество заключается в том, что процессор и графический процессор используют одну и ту же высокоскоростную память, а опыт развертывания многих инструментов локальной модели проще, чем у традиционных независимых видеокарт; но это не означает, что все 32 ГБ, 64 ГБ или 128 ГБ можно использовать в качестве весового пространства модели.

При выборе модели необходимо оставить допуск для macOS, браузеров, IDE, сервисов вывода, KV-кэшей и временных тензоров. Если Mac с 32 ГБ утяжеляет модель до 28 ГБ, может показаться, что она просто влезает. Однако в реальной работе память может часто сжиматься, перезагружаться на диск или скорость может значительно падать. Локальный LLM более консервативно оценивает доступное пространство в режиме Mac.

Для чего подходят 16 ГБ, 32 ГБ, 64 ГБ и 128 ГБ?

Mac с памятью 16 ГБ больше подходит для небольших моделей с низким и средним уровнем квантования, таких как версии Q4/Q5 3B, 4B и 7B. Он может удовлетворить легкий чат, сводку, перевод и простую помощь по коду, но не подходит для длинного контекста или визуальных моделей. 32 ГБ могут охватывать больше моделей 7B/14B, а также можно попробовать более стабильные квантованные версии, что является обычной отправной точкой для обычных разработчиков.

После 64 ГБ пользователи могут попробовать модели MoE или 30B большего размера, которые также могут оставить место для длительного контекста и многозадачности. 128 ГБ подходит для более масштабных экспериментов, таких как большие модели с высокой степенью квантования, сравнение нескольких версий моделей, длинные контексты и сложные локальные рабочие процессы. Но даже имея 128 ГБ, вам все равно нужно смотреть на вес модели, KV-кеш, серверную часть и скорость.

Различия между Metal, MLX и llama.cpp

Общие серверные части на Mac включают llama.cpp Metal, MLX, Ollama и LM Studio. Базовая оптимизация этих инструментов различна, и скорость одной и той же модели на разных бэкэндах может быть разной. Модель MoE особенно зависит от реализации ядра, и скорость нельзя определить, используя только количества параметров.

Следовательно, ток/с на странице рекомендаций должен представлять собой консервативную оценку или диапазон, а не абсолютное обещание. Что действительно нужно пользователям, так это направление проверки: какие модели могут быть загружены с высокой вероятностью, какие модели требуют больше памяти, а какие модели могут работать только теоретически, но работают нестабильно.

Почему 128 ГБ стоит разблокировать более крупную модель

Если 32 ГБ, 64 ГБ и 128 ГБ дают одинаковые рекомендации в отношении качества, обычно это означает, что алгоритм сортировки неправильно использует изменение емкости. Больший объем унифицированной памяти должен позволить моделям с большим количеством параметров, более высоким квантованием или более длинным контекстом войти в набор кандидатов. В частности, это должно отражаться в моделях, ориентированных на качество.

Но «больше» — не единственная цель. Рекомендательные системы должны ранжироваться по качеству модели, сопоставлению задач, режиму выполнения, уверенности в скорости и запасу памяти. Mac с памятью 128 ГБ может работать с более крупными моделями, но это не означает, что для каждого сценария следует слепо рекомендовать самую большую модель; лучший выбор для программирования, общих, математических и визуальных задач может быть разным.

Что выбрать пользователям Mac?

Обычные пользователи могут начать со сбалансированного режима. Если результаты показывают, что все графические процессоры/унифицированная память выполняются полностью, конфигурация стабильна; если большое количество результатов показывает частичную разгрузку или низкую достоверную скорость, вам необходимо уменьшить квантование, сократить контекст или выбрать модель меньшего размера. При выполнении задач программирования важны возможности кода и длина контекста модели; при выполнении визуальных задач убедитесь, что модель действительно является мультимодальной.

Ценность Local LLM заключается в том, чтобы превратить эти суждения в визуальный ввод, а не позволять пользователям угадывать одно за другим на Hugging Face. В сообщении блога объясняются принципы, а инструмент объединяет список действующих моделей с аппаратным обеспечением пользователя, чтобы дать текущие рекомендации.