Apple 통합 메모리는 로컬 LLM에 어떤 영향을 미치나요?

Mac의 전체 메모리를 비디오 메모리로 사용할 수 없는 이유와 16GB, 32GB, 64GB 및 128GB 시스템에 적합한 모델을 선택하는 방법을 설명하세요.

통합 메모리는 "모든 모델을 사용할 수 있다"는 의미는 아닙니다.

Apple Silicon의 통합 메모리는 CPU, GPU, 시스템, 앱 및 백그라운드 서비스에서 사용됩니다. 장점은 CPU와 GPU가 동일한 고속 메모리를 공유하고 많은 로컬 모델 도구의 배포 경험이 기존 독립 그래픽 카드보다 간단하다는 것입니다. 하지만 32GB, 64GB, 128GB를 모두 모델 무게 공간으로 사용할 수 있는 것은 아닙니다.

실제로 모델을 선택할 때 macOS, 브라우저, IDE, 추론 서비스, KV 캐시 및 임시 텐서를 허용해야 합니다. 32GB 맥이 28GB로 모델을 가중시킨다면 딱 들어맞는 것처럼 보일 수도 있다. 그러나 실제 동작에서는 메모리가 자주 압축되거나 디스크로 교체되거나 속도가 크게 떨어질 수 있다. 로컬 LLM은 Mac 모드에서 사용 가능한 공간을 보다 보수적으로 추정합니다.

16GB, 32GB, 64GB, 128GB는 무엇에 적합합니까?

16GB Mac은 3B, 4B, 7B의 Q4/Q5 버전과 같이 소형 모델과 중저 양자화에 더 적합합니다. 간단한 채팅, 요약, 번역 및 간단한 코드 지원을 만족시킬 수 있지만 긴 컨텍스트 또는 시각적 모델에는 적합하지 않습니다. 32GB는 더 많은 7B/14B 모델을 수용할 수 있으며, 일반 개발자의 공통 출발점인 보다 안정적인 양자화 버전을 시도할 수도 있습니다.

64GB 이후 사용자는 더 큰 MoE 또는 30B 모델을 사용해 볼 수 있으며, 이는 긴 컨텍스트 및 멀티태스킹을 위한 공간도 확보할 수 있습니다. 128GB는 고도로 양자화된 대형 모델, 여러 모델 버전 비교, 긴 컨텍스트 및 복잡한 로컬 워크플로우와 같은 더 큰 실험 범위에 적합합니다. 하지만 128GB가 있어도 여전히 모델 무게, KV 캐시, 백엔드, 속도를 살펴봐야 합니다.

Metal, MLX 및 llama.cpp의 차이점

Mac의 일반적인 백엔드에는 llama.cpp Metal, MLX, Ollama 및 LM Studio가 포함됩니다. 이러한 도구의 기본 최적화는 다르며, 다른 백엔드에서 동일한 모델의 속도는 다를 수 있습니다. MoE 모델은 특히 커널 구현에 의존하며 매개변수 수량만으로는 속도를 추론할 수 없습니다.

따라서 추천 페이지의 톡/초는 절대적인 약속이 아닌 보수적인 추정치나 범위여야 합니다. 사용자에게 정말로 필요한 것은 어떤 모델이 높은 확률로 로드될 수 있는지, 어떤 모델이 더 많은 메모리를 필요로 하는지, 어떤 모델이 이론적으로만 실행될 수 있지만 불안정한 경험을 가지고 있는지 선별 방향입니다.

128GB가 더 큰 모델의 잠금을 해제해야 하는 이유

32GB, 64GB, 128GB가 정확히 동일한 품질 우선 권장 사항을 제공한다면 이는 일반적으로 정렬 알고리즘이 용량 변경을 제대로 활용하지 못하고 있음을 의미합니다. 더 큰 통합 메모리를 사용하면 더 높은 매개변수 수, 더 높은 양자화 또는 더 긴 컨텍스트를 가진 모델이 후보 세트에 들어갈 수 있습니다. 특히 품질 우선 모델은 이를 반영해야 합니다.

그러나 "더 큰 것"이 유일한 목표는 아닙니다. 추천 시스템은 모델 품질, 작업 일치, 실행 모드, 속도 신뢰도 및 메모리 여유 사이에서 순위를 매겨야 합니다. 128GB Mac에서는 더 큰 모델을 실행할 수 있지만 이것이 모든 시나리오에 대해 가장 큰 모델을 맹목적으로 권장해야 한다는 의미는 아닙니다. 프로그래밍, 일반, 수학 및 시각적 작업에 대한 최선의 선택은 다를 수 있습니다.

Mac 사용자는 무엇을 선택해야 합니까?

일반 사용자는 균형 모드로 시작할 수 있습니다. 결과가 모두 전체 GPU/통합 메모리 실행이면 구성이 안정적입니다. 다수의 결과가 부분적인 오프로딩 또는 낮은 신뢰도 속도를 나타내는 경우 양자화를 줄이고 컨텍스트를 줄이거나 더 작은 모델을 선택해야 합니다. 프로그래밍 작업을 수행할 때 모델의 코드 기능과 컨텍스트 길이가 중요합니다. 시각적 작업을 수행할 때 모델이 실제로 다중 모드 모델인지 확인하세요.

Local LLM의 가치는 Hugging Face에서 사용자가 하나씩 추측하도록 하는 것이 아니라 이러한 판단을 시각적 입력으로 만드는 데 있습니다. 블로그 게시물에서는 원리를 설명하고, 도구는 실시간 모델 목록을 사용자의 하드웨어와 결합하여 현재 권장 사항을 제공합니다.