Количественная оценка решает проблему памяти
Локальные большие модели обычно не могут работать непосредственно на видеокартах потребительского уровня с полными весами FP16, поэтому форматы квантования, такие как GGUF, AWQ и GPTQ, сжимают веса в более мелкие представления. Q4, Q5, Q6 и Q8 представляют собой компромиссы различной точности и размера. Чем выше точность, тем стабильнее качество и выше заполняемость; чем ниже точность, тем меньше занятость, но может потеряться стабильность рассуждений, производительность в длительном контексте или возможности выполнения сложных задач.
Обычному пользователю нет необходимости сначала осваивать все детали количественного анализа. Более практичное суждение: может ли ваша видеопамять быть полностью загружена? Ваша задача чувствительна к качеству? Вам нужен длинный контекст? Эти три вопроса определяют, какой вариант выбрать: Q4, Q5/Q6 или Q8.
Вопрос 4: Самый распространенный вариант входа
Преимущества Q4 – низкая занятость и широкий рабочий диапазон. Многие модели 7B, 14B и даже более крупные модели сложно внедрить в обычное настольное оборудование без Q4. Четвертый квартал часто является разумной отправной точкой для общения, подведения итогов, облегченных объяснений кода и изучения возможностей модели.
Его недостатком является то, что потеря качества более очевидна и может быть более нестабильной, особенно в сложных рассуждениях, математике, генерации длинного кода и многораундовых контекстах. Если пользователь предпочитает «просто бегать», Q4 — хороший выбор; если пользователь стремится к стабильному результату, приоритет следует отдавать конфигурациям графической памяти Q5, Q6 или выше.
Q5 и Q6: Качественные десерты для большинства людей
Q5/Q6 обычно является лучшим компромиссом для длительного использования. Они занимают больше места, чем Q4, но более стабильны по качеству для многих задач и особенно подходят для программирования, обзоров длинных статей, вопросов и ответов, а также сценариев, требующих меньше иллюзий. Многие местные пользователи LLM считают Q5_K_M или Q6_K предпочтительным выбором для ежедневного использования.
Режим эквалайзера Local LLM должен быть более ориентирован на этот тип версии: не следует принудительно выбирать нестабильный Q8 для качества или по умолчанию использовать самое низкое квантование для экономии памяти. После того как пользователь вводит видеопамять, разделение памяти в рекомендуемых результатах может помочь определить, есть ли еще место для текущего квантования.
В8: качество более стабильное, но занятость выше
Q8 близок к высокоточному опыту и обычно подходит для устройств с большей графической памятью или когда пользователи явно выбирают качество в качестве приоритета. Преимущество состоит в том, что потери квантования меньше, а выходной сигнал более стабилен; недостатком является то, что использование видеопамяти близко к состоянию низкого сжатия, что приведет к уменьшению кэша KV и рабочего запаса.
Если Q8 требует частичной разгрузки памяти ЦП, реальный опыт может быть не таким хорошим, как менее квантованная, но полностью работающая версия с графическим процессором. Рекомендательные системы нельзя сортировать только по количественной точности, они также должны учитывать методы работы, диапазоны скоростей и использование пользователем.
Длинные изменения контекста, оптимальное квантование
Многие пользователи смотрят только на вес модели и игнорируют кэш KV. Кэш KV значительно увеличивается при изменении контекста от 4 КБ до 32 КБ и до 128 КБ. Модель Q6, которая может работать с разрешением 4K, возможно, придется понизить версию до Q4 или переключиться на модель меньшего размера в длительном контексте.
Таким образом, режим «сначала длинный контекст» должен не просто рекомендовать самую большую модель, но должен сохранять больший запас памяти. Для RAG, длительного чтения документов и анализа базы кода стабильный контекст обработки важнее теоретического качества одного ответа.
Как понять предпочтения в Local LLM
Приоритет качества будет пытаться выбрать кандидатов с более высоким качеством, большими параметрами или более высоким квантованием; балансировка будет компромиссом между качеством, запасом памяти и скоростью; длинный контекст будет консервативно выбирать меньшую занятость, чтобы не допустить, чтобы кэш KV съел рабочее пространство.
Именно здесь блоги и инструменты должны работать вместе. В статье объясняются основные компромиссы Q4/Q5/Q6/Q8. Инструмент предоставляет текущую работоспособную версию на основе аппаратного обеспечения пользователя и данных модели Hugging Face, а также указывает ссылку для загрузки на соответствующую страницу модели.