Kwantyfikacja rozwiązuje problem pamięci
Lokalne duże modele zwykle nie mogą działać bezpośrednio na kartach graficznych klasy konsumenckiej z pełnymi wagami FP16, więc formaty kwantyzacji, takie jak GGUF, AWQ i GPTQ, kompresują wagi do mniejszych reprezentacji. Q4, Q5, Q6 i Q8 reprezentują kompromisy o różnych precyzjach i rozmiarach. Im wyższa dokładność, tym stabilniejsza jakość i większe obłożenie; im niższa dokładność, tym mniejsze obłożenie, ale może nastąpić utrata stabilności rozumowania, wydajności w długim kontekście lub możliwości wykonywania złożonych zadań.
Przeciętny użytkownik nie musi najpierw opanowywać wszystkich szczegółów kwantyfikacji. Bardziej praktyczna ocena brzmi: czy pamięć wideo może być w pełni załadowana? Czy Twoje zadanie jest wrażliwe na jakość? Czy potrzebujesz długiego kontekstu? Te trzy pytania decydują o tym, czy faworyzować Q4, Q5/Q6 czy Q8.
Pytanie 4: Najczęstszy wybór wejścia
Zaletami Q4 są małe zajętość i szeroki zasięg działania. Wiele modeli 7B, 14B i jeszcze większych trudno dostać się do zwykłego sprzętu stacjonarnego bez Q4. Czwarty kwartał jest często rozsądnym punktem wyjścia do czatu, podsumowań, objaśnień uproszczonego kodu i możliwości modelu eksploracji.
Jego wadą jest to, że utrata jakości jest bardziej oczywista i może być bardziej niestabilna, szczególnie w przypadku złożonego rozumowania, matematyki, generowania długiego kodu i kontekstów wielorundowych. Jeśli użytkownik preferuje „po prostu bieganie”, dobrym wyborem będzie Q4; jeśli użytkownik oczekuje stabilnych wyników, pierwszeństwo należy nadać konfiguracjom pamięci graficznej Q5, Q6 lub wyższej.
P5 i P6: Wysokiej jakości desery dla większości ludzi
Q5/Q6 jest zwykle lepszym kompromisem w przypadku długotrwałego użytkowania. Zajmują więcej miejsca niż Q4, ale są bardziej stabilne pod względem jakości w przypadku wielu zadań i szczególnie nadają się do programowania, długich podsumowań artykułów, pytań i odpowiedzi dotyczących wiedzy oraz scenariuszy wymagających mniej iluzji. Wielu lokalnych użytkowników LLM uzna Q5_K_M lub Q6_K za preferowany wybór do codziennego użytku.
Tryb korekcji lokalnego LLM powinien być bardziej ukierunkowany na tego typu wersję: nie wybieraj na siłę niestabilnego Q8 ze względu na jakość, ani nie ustawiaj domyślnie najniższej kwantyzacji, aby oszczędzać pamięć. Po wprowadzeniu przez użytkownika pamięci wideo podział pamięci w zalecanych wynikach może pomóc w ustaleniu, czy jest jeszcze miejsce na bieżącą kwantyzację.
P8: Jakość jest bardziej stabilna, ale zawód jest wyższy
Q8 zapewnia wysoką precyzję i zwykle jest odpowiedni dla urządzeń z większą pamięcią graficzną lub gdy użytkownicy wyraźnie wybierają priorytet dla jakości. Zaletą jest to, że strata kwantyzacji jest mniejsza, a sygnał wyjściowy jest bardziej stabilny; wadą jest to, że zużycie pamięci wideo jest bliskie niskiemu stanowi kompresji, co zmniejszy pamięć podręczną KV i margines operacyjny.
Jeśli Q8 wymaga częściowego odciążenia pamięci procesora, rzeczywiste wrażenia mogą nie być tak dobre, jak w przypadku mniej skwantowanej wersji, ale z pełnym procesorem graficznym. Systemów rekomendacji nie można sortować wyłącznie według dokładności ilościowej, ale należy również wziąć pod uwagę metody działania, zakresy prędkości i zastosowania użytkowników.
Długi kontekst zmienia optymalną kwantyzację
Wielu użytkowników patrzy tylko na wagę modelu i ignoruje pamięć podręczną KV. Pamięć podręczna KV znacznie wzrasta wraz ze zmianą kontekstu z 4K na 32K i na 128K. W przypadku modelu Q6, który może działać w rozdzielczości 4K, w dłuższej perspektywie może zaistnieć potrzeba przejścia na wersję Q4 lub przejścia na mniejszy model.
Dlatego tryb „najpierw długi kontekst” nie powinien po prostu zalecać największego modelu, ale powinien zachować większy margines pamięci. W przypadku RAG, czytania długich dokumentów i analizy bazy kodu stabilny kontekst przetwarzania jest ważniejszy niż teoretyczna jakość pojedynczej odpowiedzi.
Jak zrozumieć preferencje w lokalnym LLM
Priorytet jakościowy będzie starał się wybrać kandydatów o wyższej jakości, większych parametrach lub wyższej kwantyzacji; równoważenie będzie kompromisem pomiędzy jakością, marginesem pamięci i szybkością; długi kontekst konserwatywnie wybierze mniejsze zajętość, aby zapobiec zajmowaniu przez pamięć podręczną KV działającej przestrzeni.
W tym miejscu blogi i narzędzia powinny ze sobą współpracować. W artykule wyjaśniono podstawowe kompromisy Q4/Q5/Q6/Q8. Narzędzie udostępnia aktualną wersję, którą można uruchomić w oparciu o sprzęt użytkownika i dane modelu Hugging Face, a także wskazuje łącze pobierania do strony odpowiedniego modelu.