Apple Unified Memory for Local LLMs

बताएं कि Mac पर कुल मेमोरी का उपयोग वीडियो मेमोरी के रूप में क्यों नहीं किया जा सकता है, और 16GB, 32GB, 64GB और 128GB मशीनों के लिए उपयुक्त मॉडल कैसे चुनें।

एकीकृत मेमोरी का मतलब यह नहीं है कि "सभी मॉडलों का उपयोग किया जा सकता है"

Apple सिलिकॉन की एकीकृत मेमोरी का उपयोग CPU, GPU, सिस्टम, ऐप्स और पृष्ठभूमि सेवाओं द्वारा किया जाता है। इसका लाभ यह है कि सीपीयू और जीपीयू समान हाई-स्पीड मेमोरी साझा करते हैं, और कई स्थानीय मॉडल टूल का परिनियोजन अनुभव पारंपरिक स्वतंत्र ग्राफिक्स कार्ड की तुलना में सरल है; लेकिन इसका मतलब यह नहीं है कि सभी 32GB, 64GB या 128GB को मॉडल वेट स्पेस के रूप में इस्तेमाल किया जा सकता है।

वास्तव में एक मॉडल का चयन करते समय, आपको macOS, ब्राउज़र, IDE, अनुमान सेवाओं, KV कैश और अस्थायी टेंसर के लिए भत्ता छोड़ना होगा। यदि 32 जीबी मैक मॉडल का वजन 28 जीबी है, तो ऐसा लग सकता है कि यह बस इसमें फिट हो सकता है। हालांकि, वास्तविक ऑपरेशन में, मेमोरी को बार-बार संपीड़ित किया जा सकता है, डिस्क पर स्वैप किया जा सकता है, या गति काफी कम हो सकती है। स्थानीय एलएलएम मैक मोड में उपलब्ध स्थान का अनुमान अधिक रूढ़िवादी ढंग से लगाता है।

16GB, 32GB, 64GB और 128GB किसके लिए उपयुक्त हैं?

16 जीबी मैक छोटे मॉडल और निम्न से मध्यम परिमाणीकरण के लिए अधिक उपयुक्त है, जैसे 3बी, 4बी और 7बी के क्यू4/क्यू5 संस्करण। यह हल्की बातचीत, सारांश, अनुवाद और सरल कोड सहायता को पूरा कर सकता है, लेकिन लंबे संदर्भ या दृश्य मॉडल के लिए उपयुक्त नहीं है। 32GB अधिक 7B/14B मॉडल को कवर कर सकता है, और अधिक स्थिर परिमाणित संस्करणों को भी आज़मा सकता है, जो सामान्य डेवलपर्स के लिए एक सामान्य प्रारंभिक बिंदु है।

64GB के बाद, उपयोगकर्ता बड़े MoE या 30B मॉडल आज़मा सकते हैं, जो लंबे संदर्भों और मल्टीटास्किंग के लिए भी जगह छोड़ सकते हैं। 128GB बड़े प्रयोग के दायरे के लिए उपयुक्त है, जैसे अत्यधिक मात्रा वाले बड़े मॉडल, एकाधिक मॉडल संस्करण तुलना, लंबे संदर्भ और जटिल स्थानीय वर्कफ़्लो। लेकिन 128GB के साथ भी, आपको अभी भी मॉडल वजन, KV कैश, बैकएंड और गति को देखना होगा।

मेटल, एमएलएक्स और llama.cpp के बीच अंतर

Mac पर सामान्य बैकएंड में llama.cpp मेटल, MLX, Ollama और LM स्टूडियो शामिल हैं। इन उपकरणों के अंतर्निहित अनुकूलन अलग-अलग हैं, और अलग-अलग बैकएंड पर एक ही मॉडल की गति भिन्न हो सकती है। MoE मॉडल विशेष रूप से कर्नेल कार्यान्वयन पर निर्भर करता है, और अकेले पैरामीटर मात्रा का उपयोग करके गति का अनुमान नहीं लगाया जा सकता है।

इसलिए, अनुशंसा पृष्ठ पर टोकन एक रूढ़िवादी अनुमान या सीमा होनी चाहिए, न कि पूर्ण वादा। उपयोगकर्ताओं को वास्तव में एक स्क्रीनिंग दिशा की आवश्यकता होती है: कौन से मॉडल को उच्च संभावना के साथ लोड किया जा सकता है, किन मॉडलों को अधिक मेमोरी की आवश्यकता होती है, और कौन से मॉडल केवल सैद्धांतिक रूप से चल सकते हैं लेकिन अस्थिर अनुभव रखते हैं।

128GB को बड़े मॉडल को अनलॉक क्यों करना चाहिए?

यदि 32 जीबी, 64 जीबी, और 128 जीबी बिल्कुल समान गुणवत्ता-पहली अनुशंसा देते हैं, तो आमतौर पर इसका मतलब है कि सॉर्टिंग एल्गोरिदम क्षमता परिवर्तन का उचित लाभ नहीं उठा रहा है। बड़ी एकीकृत मेमोरी को उम्मीदवार सेट में प्रवेश करने के लिए उच्च पैरामीटर गणना, उच्च परिमाणीकरण, या लंबे संदर्भ वाले मॉडल की अनुमति देनी चाहिए। विशेष रूप से गुणवत्ता-प्रथम मॉडल को इसे प्रतिबिंबित करना चाहिए।

लेकिन "बड़ा" ही एकमात्र लक्ष्य नहीं है। अनुशंसा प्रणाली को मॉडल गुणवत्ता, कार्य मिलान, निष्पादन मोड, गति आत्मविश्वास और मेमोरी मार्जिन के बीच रैंक करने की आवश्यकता है। एक 128 जीबी मैक बड़े मॉडल चला सकता है, लेकिन इसका मतलब यह नहीं है कि हर परिदृश्य के लिए सबसे बड़े मॉडल की आँख बंद करके अनुशंसा की जानी चाहिए; प्रोग्रामिंग, सामान्य, गणितीय और दृश्य कार्यों के लिए सर्वोत्तम विकल्प भिन्न हो सकते हैं।

मैक उपयोगकर्ताओं को क्या चुनना चाहिए?

सामान्य उपयोगकर्ता संतुलित मोड से शुरुआत कर सकते हैं। यदि परिणाम सभी पूर्ण GPU/एकीकृत मेमोरी रन हैं, तो कॉन्फ़िगरेशन स्थिर है; यदि बड़ी संख्या में परिणाम आंशिक ऑफलोडिंग या कम आत्मविश्वास गति दिखाते हैं, तो आपको परिमाणीकरण को कम करने, संदर्भ को छोटा करने, या एक छोटा मॉडल चुनने की आवश्यकता है। प्रोग्रामिंग कार्य करते समय, मॉडल की कोड क्षमताएं और संदर्भ लंबाई महत्वपूर्ण होती है; दृश्य कार्य करते समय, सुनिश्चित करें कि मॉडल वास्तव में एक मल्टी-मोडल मॉडल है।

लोकल एलएलएम का महत्व इन निर्णयों को विज़ुअल इनपुट में बनाने में निहित है, बजाय इसके कि उपयोगकर्ताओं को हगिंग फेस पर एक-एक करके अनुमान लगाने दिया जाए। ब्लॉग पोस्ट सिद्धांतों की व्याख्या करता है, और टूल वर्तमान अनुशंसाएं देने के लिए उपयोगकर्ता के हार्डवेयर के साथ लाइव मॉडल सूची को जोड़ता है।

एप्पल यूनिफाइड मेमोरी स्थानीय एलएलएम को कैसे प्रभावित करती है?

एकीकृत मेमोरी का मतलब यह नहीं है कि "सभी मॉडलों का उपयोग किया जा सकता है"

16GB, 32GB, 64GB और 128GB किसके लिए उपयुक्त हैं?

मेटल, एमएलएक्स और llama.cpp के बीच अंतर

128GB को बड़े मॉडल को अनलॉक क्यों करना चाहिए?

मैक उपयोगकर्ताओं को क्या चुनना चाहिए?

स्थानीय LLM चुनने पर और गहराई से पढ़ें