Przyjrzyjmy się najpierw konkluzji: pamięć wideo nie jest jedynym wąskim gardłem
Aby określić, czy lokalny duży model może działać, nie można po prostu spojrzeć na parametry modelu, ani tylko na numery pamięci graficznej. To, co naprawdę wpływa na ładowanie, to wagi modeli, format kwantyzacji, pamięć podręczna KV, obciążenie działającej platformy, wykorzystanie tła systemu i to, czy niektóre warstwy muszą zostać przeniesione do pamięci procesora. Wersja Q4 modelu 7B może być luźna, wersja 14B Q8 będzie ciasna; ta sama pamięć wideo 24 GB, jeśli kontekst zostanie ściągnięty z 4K do 32K, pamięć podręczna KV również pochłonie dostępne miejsce.
Zalecanym pomysłem dla lokalnego LLM jest najpierw dokonanie oceny wykonalności, a następnie posortowanie według użycia i jakości modelu. Po wprowadzeniu przez użytkownika danych dotyczących pamięci wideo, pamięci, systemu i użycia, backend oszacuje zajętość wagi, pamięć podręczną KV i margines bieżący. Jeśli model wymaga częściowego odciążenia, strona będzie wyświetlana jako częściowo odciążona, a nie opakowana jako „całkowicie możliwa do uruchomienia”. Jest to ważne dla przeciętnego użytkownika, ponieważ możliwość załadowania i użyteczność to dwie różne rzeczy.
6 GB do 8 GB: traktuj priorytetowo małe modele i niską kwantyzację
Pamięć wideo o pojemności od 6 GB do 8 GB jest bardziej odpowiednia dla kwantyzowanych modeli Q4 lub Q5 1B, 3B, 4B, 7B. Ten zakres może zaspokoić lekkie pytania i odpowiedzi, proste wyjaśnienie kodu, podsumowanie, tłumaczenie i użytek osobisty o niskiej współbieżności, ale nie nadaje się do upchania w nim wszystkich popularnych dużych modeli. Modele wizyjne, modele multimodalne i zadania o długim kontekście szybciej trafią na szczyt, ponieważ koder obrazu i pamięć podręczna KV również zajmują pamięć.
Jeśli użytkownik ma tylko 8 GB pamięci wideo, strona rekomendacji powinna być bardziej konserwatywna: raczej polecać mały model, który może działać na pełnym GPU, zamiast oceniać model 30B w formie częściowo odinstalowanej. Częściowe odciążenie może działać w niektórych scenariuszach, ale szybkość i doświadczenie zależą od procesora, przepustowości pamięci, PCIe, zaplecza wnioskowania i obciążenia systemu i nie mogą być stosowane jako rozwiązanie pierwszego wyboru dla zwykłych użytkowników.
12 GB do 16 GB: optymalny wybór dla większości użytkowników komputerów stacjonarnych
12 GB i 16 GB to typowe konfiguracje wielu konsumenckich kart graficznych, takich jak RTX 3060 12 GB, RTX 4070 12 GB i RTX 4060 Ti 16 GB. Ten zakres może zwykle obejmować partię kwantyfikowanych wersji modeli od 7B do 14B w kwartale Q4/Q5, przy czym jest miejsce na opcje w zakresie programowania, ogólnych pytań i odpowiedzi oraz lekkich wytycznych RAG. Dla użytkowników najważniejsze nie jest dążenie do największego modelu, ale znalezienie wersji, która działa stabilnie, nie jest zbyt szybka i ma wystarczającą długość kontekstu.
W tym zakresie wybory ilościowe będą miały bezpośredni wpływ na doświadczenie. Q4 jest ogólnie łatwiejszy w montażu, Q5/Q6 jest bardziej spójny, ale zajmuje więcej wagi, a Q8 jest bliski wysokiej jakości, ale znacznie zmniejsza przestrzeń nad głową. Strona Local LLM powinna pozwolić użytkownikowi zobaczyć „wymaganą pamięć” i „tryb działania”, a nie tylko podawać nazwę modelu. W ten sposób użytkownicy będą wiedzieć, dlaczego rekomendowane wyniki znajdują się wyżej w rankingu.
24 GB do 48 GB: zacznij szukać wyższej jakości i dłuższego kontekstu
24 GB pamięci wideo to ważny przełom dla lokalnego LLM. Umożliwia użytkownikom wypróbowanie większych modeli 14B, 27B, 30B, 32B lub uruchomienie modeli 7B/14B w wyższej kwantyzacji i dłuższych kontekstach. Powyżej 48 GB jest bardziej odpowiednie do kwantyfikacji wysokiej jakości, większej przestrzeni eksperymentalnej, przełączania wielu modeli i zadań o dłuższym kontekście.
Jednak większa pamięć wideo nadal nie oznacza, że ze wszystkich modeli można łatwo korzystać. Parametry całkowite i parametry aktywacji modelu MoE są różne. Oszacowanie prędkości zależy od aktywnych parametrów i odczytu pamięci; model wizualny uwzględnia również koder obrazu; długi kontekst zwiększy pamięć podręczną KV. System rekomendacji musi rozbić te różnice i wyświetlić je, aby użytkownicy nie błędnie pomyśleli, że „jeśli pamięć wideo jest wystarczająco duża, musi być szybka”.
Kiedy przydatne jest odciążanie pamięci i procesora?
Gdy pamięć wideo nie jest wystarczająca, ale pamięć systemowa jest wystarczająca, niektóre backendy mogą umieścić pewne warstwy w pamięci procesora. Umożliwia to załadowanie modelu, ale zwykle powoduje spowolnienie, szczególnie jeśli oddzielna karta graficzna musi przejść przez PCIe. Zunifikowana pamięć Apple Silicon nie ma tego samego klifu PCIe, ale nadal ma na nią wpływ przepustowość pamięci, jądro Metal/MLX i zajmowane miejsce w tle.
Dlatego strona powinna rozróżniać pomiędzy pełnym procesorem graficznym, częściowym obciążeniem i samym procesorem. To, co zwykli użytkownicy powinni wiedzieć najbardziej, to: praca z pełnym procesorem graficznym zwykle zapewnia najlepsze wrażenia; alternatywnie można zastosować częściowy rozładunek; Tylko procesor nadaje się głównie do małych modeli lub testów offline i nie nadaje się do rozmów, które wymagają dużej przepustowości.
Jak dokonywać wyborów za pomocą lokalnego LLM
Po wprowadzeniu pamięci wideo i pamięci, najpierw sprawdź, czy kilka pierwszych to pełne uruchomienia procesora graficznego, a następnie spójrz na wersję skwantowaną i przedział ufności prędkości. Jeśli na pierwszym miejscu znajduje się częściowa dezinstalacja, oznacza to, że ma przewagę pod względem jakości lub popularności pobierania, ale niekoniecznie jest to codzienny wybór zapewniający najlepsze doświadczenia. Użytkownicy mogą przełączać się między „Jakością na pierwszym miejscu, Zrównoważonym, Długim kontekstem”, aby obserwować zmiany w rankingu.
W przypadku stron SEO celem artykułu nie jest zapamiętanie wszystkich modeli dla użytkowników, ale wyjaśnienie logiki podejmowania decyzji i sprowadzenie użytkowników z powrotem do zalecanego narzędzia. Po jasnym wyjaśnieniu pojęć pamięci wideo, kwantyzacji, kontekstu i trybu działania użytkownicy mogą wprowadzić do narzędzia swój własny sprzęt, a uzyskane wyniki będą wiarygodne.