W jaki sposób Apple Unified Memory wpływa na lokalny LLM?

Wyjaśnij, dlaczego całej pamięci komputera Mac nie można wykorzystać jako pamięci wideo i jak wybrać odpowiedni model dla komputerów o pojemnościach 16 GB, 32 GB, 64 GB i 128 GB.

Ujednolicona pamięć nie oznacza, że „można używać wszystkich modeli”

Zunifikowana pamięć Apple Silicon jest używana przez procesor, kartę graficzną, system, aplikacje i usługi działające w tle. Jego zaletą jest to, że procesor i procesor graficzny korzystają z tej samej szybkiej pamięci, a wdrażanie wielu narzędzi do modelowania lokalnego jest prostsze niż w przypadku tradycyjnych niezależnych kart graficznych; ale to nie znaczy, że wszystkie 32 GB, 64 GB lub 128 GB mogą być wykorzystane jako przestrzeń modelowa.

Wybierając model, należy uwzględnić macOS, przeglądarki, IDE, usługi wnioskowania, pamięci podręczne KV i tymczasowe tensory. Jeśli komputer Mac o pojemności 32 GB waży model do 28 GB, może się wydawać, że po prostu się zmieści. Jednak w rzeczywistości pamięć może być często kompresowana, zamieniana na dysk lub prędkość może znacznie spaść. Lokalny LLM szacuje dostępną przestrzeń w bardziej konserwatywny sposób w trybie Mac.

Do czego nadają się 16 GB, 32 GB, 64 GB i 128 GB?

Mac 16 GB jest bardziej odpowiedni dla małych modeli i niskiej do średniej kwantyzacji, takich jak wersje Q4/Q5 3B, 4B i 7B. Może zaspokoić potrzeby lekkiego czatu, podsumowań, tłumaczenia i prostej pomocy w kodzie, ale nie nadaje się do długich modeli kontekstowych lub wizualnych. 32 GB może obsłużyć więcej modeli 7B/14B, a także umożliwia wypróbowanie bardziej stabilnych wersji skwantowanych, co jest częstym punktem wyjścia dla zwykłych programistów.

Po 64 GB użytkownicy mogą wypróbować większe modele MoE lub 30B, które mogą również pozostawić miejsce na długie konteksty i wielozadaniowość. 128 GB jest odpowiednie w przypadku większych eksperymentów, takich jak duże modele o dużym stopniu skwantowania, porównania wielu wersji modeli, długie konteksty i złożone lokalne przepływy pracy. Ale nawet przy 128 GB nadal musisz zwracać uwagę na wagę modelu, pamięć podręczną KV, zaplecze i prędkość.

Różnice między Metalem, MLX i llama.cpp

Typowe backendy na komputerach Mac obejmują llama.cpp Metal, MLX, Ollama i LM Studio. Podstawowe optymalizacje tych narzędzi są różne, a prędkość tego samego modelu na różnych backendach może być różna. Model MoE w szczególności opiera się na implementacji jądra, a prędkości nie można wywnioskować na podstawie samych ilości parametrów.

Dlatego tok/y na stronie z rekomendacjami powinny być ostrożnymi szacunkami lub zakresem, a nie absolutną obietnicą. Tym, czego naprawdę potrzebują użytkownicy, jest kierunek sprawdzania: które modele można załadować z dużym prawdopodobieństwem, które modele wymagają więcej pamięci, a które modele mogą działać tylko teoretycznie, ale mają niestabilne działanie.

Dlaczego 128 GB powinno odblokować większy model

Jeśli 32 GB, 64 GB i 128 GB dają dokładnie takie same zalecenia dotyczące jakości, zwykle oznacza to, że algorytm sortowania nie wykorzystuje właściwie zmiany pojemności. Większa ujednolicona pamięć powinna umożliwić wprowadzenie do zbioru kandydatów modeli z większą liczbą parametrów, wyższą kwantyzacją lub dłuższym kontekstem. Powinny to odzwierciedlać zwłaszcza modele stawiające na jakość.

Ale „większy” to nie jedyny cel. Systemy rekomendujące muszą uwzględniać jakość modelu, dopasowanie zadań, tryb wykonania, pewność szybkości i margines pamięci. Na komputerze Mac o pojemności 128 GB można obsługiwać większe modele, ale nie oznacza to, że w każdym scenariuszu należy ślepo polecać największy model; najlepsze wybory do zadań programistycznych, ogólnych, matematycznych i wizualnych mogą być inne.

Co powinni wybrać użytkownicy komputerów Mac?

Zwykli użytkownicy mogą zacząć od trybu zrównoważonego. Jeśli wyniki obejmują pełne uruchomienie procesora graficznego/ujednoliconej pamięci, konfiguracja jest stabilna; jeśli duża liczba wyników wykazuje częściowe odciążenie lub niską pewność, należy zmniejszyć kwantyzację, skrócić kontekst lub wybrać mniejszy model. Podczas wykonywania zadań programistycznych ważne są możliwości kodu i długość kontekstu modelu; wykonując zadania wizualne, upewnij się, że model jest rzeczywiście modelem multimodalnym.

Wartość Local LLM polega na przekształceniu tych ocen w wizualne dane wejściowe, a nie na pozwalaniu użytkownikom zgadywać jeden po drugim w Hugging Face. W poście na blogu wyjaśniono zasady, a narzędzie łączy aktualną listę modeli ze sprzętem użytkownika, aby przedstawić aktualne rekomendacje.