Local LLM VRAM Guide

От 6 ГБ, 8 ГБ, 12 ГБ, 24 ГБ до 48 ГБ объясните, как объем параметров модели, квантованная версия, кэш KV и системные издержки объединяются, чтобы определить, можно ли его загрузить.

Давайте сначала посмотрим на вывод: видеопамять — не единственное узкое место

Чтобы определить, может ли работать локальная большая модель, вы не можете просто посмотреть на параметры модели или только на количество графической памяти. Что действительно влияет на загрузку, так это веса модели, формат квантования, KV-кэш, накладные расходы на работу платформы, фоновое использование системы и необходимость выгрузки некоторых слоев в память ЦП. Версия Q4 модели 7B может быть расслабленной, версия Q8 14B — более плотной; та же видеопамять 24Гб, если контекст перетянуть с 4К на 32К, то КВ-кеш тоже съест доступное место.

Рекомендуемая идея для Local LLM — сначала оценить работоспособность, а затем отсортировать по использованию и качеству модели. После того, как пользователь введет данные о видеопамяти, памяти, системе и использовании, серверная часть оценит занятость веса, кэш-память KV и рабочий запас. Если модель требует частичной разгрузки, страница будет отображаться как частично разгруженная, а не как «полностью работоспособная». Это важно для обычного пользователя, потому что возможность загрузки и удобство использования — это две разные вещи.

От 6 до 8 ГБ: отдавайте предпочтение небольшим моделям и низкому квантованию.

Видеопамять от 6 до 8 ГБ больше подходит для квантованных моделей Q4 или Q5 1B, 3B, 4B, 7B. Этот диапазон может удовлетворить легкие вопросы и ответы, простое объяснение кода, сводку, перевод и личное использование с низким уровнем параллелизма, но он не подходит для размещения в нем всех популярных больших моделей. Модели Vision, мультимодальные модели и задачи с длинным контекстом выйдут на первое место быстрее, поскольку кодировщик изображений и кэш KV также занимают память.

Если у пользователя всего 8 ГБ видеопамяти, страница рекомендаций должна быть более консервативной: лучше рекомендовать небольшую модель, способную работать на полном графическом процессоре, а не ранжировать модель 30B в частично неустановленном виде. Частичная разгрузка может работать в некоторых сценариях, но скорость и удобство зависят от ЦП, пропускной способности памяти, PCIe, серверной части вывода и загрузки системы и не могут использоваться в качестве решения первого выбора для обычных пользователей.

От 12 до 16 ГБ: оптимальный вариант для большинства пользователей настольных компьютеров

12 ГБ и 16 ГБ — это распространенные конфигурации для многих видеокарт потребительского уровня, таких как RTX 3060 12 ГБ, RTX 4070 12 ГБ и RTX 4060 Ti 16 ГБ. Этот диапазон обычно может охватывать партию количественных версий Q4/Q5 моделей от 7B до 14B, и есть место для вариантов программирования, общих вопросов и ответов и облегченного RAG. Для пользователей важно не гоняться за самой большой моделью, а найти версию, которая может работать стабильно, не слишком быстро и имеет достаточную длину контекста.

В этом диапазоне количественный выбор будет напрямую влиять на опыт. Q4, как правило, легче установить, Q5/Q6 более стабильны, но занимают больше веса, а Q8 близок к высокому качеству, но значительно сокращает запас по высоте. Страница Local LLM должна позволять пользователю видеть «необходимую память» и «режим работы», а не просто указывать название модели. Таким образом, пользователи будут знать, почему рекомендуемые результаты имеют более высокий рейтинг.

От 24 ГБ до 48 ГБ: начните стремиться к более высокому качеству и более длинному контексту.

24 ГБ видеопамяти — важный водораздел для местного LLM. Это позволяет пользователям опробовать более крупные модели 14B, 27B, 30B, 32B или запускать модели 7B/14B с более высоким квантованием и более длинными контекстами. Объем выше 48 ГБ больше подходит для высококачественного количественного анализа, большего экспериментального пространства, переключения между несколькими моделями и более длительных контекстных задач.

Но больший объем видеопамяти еще не означает, что всеми моделями можно будет легко пользоваться. Общие параметры и параметры активации модели МО различны. Оценка скорости зависит от активных параметров и чтения памяти; визуальная модель также учитывает кодировщик изображения; длинный контекст увеличит кэш KV. Системе рекомендаций необходимо разобрать эти различия и отобразить их, чтобы пользователи не ошибочно думали, что «если видеопамять достаточно большая, она должна быть быстрой».

Когда полезна разгрузка памяти и процессора?

Когда видеопамяти недостаточно, а системной памяти достаточно, некоторые серверные части могут помещать некоторые слои в память ЦП. Это позволяет модели загружаться, но имеет тенденцию замедляться, особенно если дискретная видеокарта должна работать через PCIe. Унифицированная память Apple Silicon не имеет такого же разрыва PCIe, но на нее по-прежнему влияют пропускная способность памяти, ядро Metal/MLX и фоновый след.

Таким образом, на странице следует различать полную разгрузку графического процессора, частичную разгрузку и только процессор. Больше всего нужно знать обычным пользователям: полная работа с графическим процессором обычно дает наилучшие впечатления; В качестве альтернативы может использоваться частичная разгрузка; Только ЦП в основном подходит для небольших моделей или автономного тестирования и не подходит для чатов, требующих высокой пропускной способности.

Как сделать выбор с помощью Local LLM

После ввода видеопамяти и памяти сначала проверьте, полностью ли работают несколько верхних графических процессоров, а затем посмотрите квантованную версию и доверительный интервал скорости. Если на первом месте стоит частичная деинсталляция, это означает, что она имеет преимущество в качестве или популярности загрузки, но это не обязательно ежедневный выбор с лучшим опытом. Пользователи могут переключаться между «Качество прежде всего, сбалансированный, длинный контекст», чтобы наблюдать за изменениями в рейтинге.

Для SEO-страниц цель статьи — не запомнить все модели для пользователей, а объяснить логику принятия решений и вернуть пользователей к рекомендованному инструменту. После того, как понятия видеопамяти, квантования, контекста и режима работы будут четко объяснены, пользователи смогут ввести в инструмент свое собственное оборудование, и полученные результаты будут заслуживающими доверия.

Какие локальные большие модели можно запускать с разной графической памятью?