Local LLM VRAM Guide

6 जीबी, 8 जीबी, 12 जीबी, 24 जीबी से 48 जीबी तक, समझाएं कि मॉडल पैरामीटर वॉल्यूम, परिमाणित संस्करण, केवी कैश और सिस्टम ओवरहेड कैसे मिलकर यह निर्धारित करते हैं कि इसे लोड किया जा सकता है या नहीं।

आइए पहले निष्कर्ष पर नजर डालें: वीडियो मेमोरी ही एकमात्र बाधा नहीं है

यह निर्धारित करने के लिए कि क्या कोई स्थानीय बड़ा मॉडल चल सकता है, आप न केवल मॉडल मापदंडों को देख सकते हैं, न ही केवल ग्राफिक्स मेमोरी नंबरों को। लोडिंग को वास्तव में मॉडल वजन, परिमाणीकरण प्रारूप, केवी कैश, रनिंग फ्रेमवर्क ओवरहेड, सिस्टम पृष्ठभूमि उपयोग और क्या कुछ परतों को सीपीयू मेमोरी में ऑफलोड करने की आवश्यकता है, को प्रभावित करता है। 7B मॉडल का Q4 संस्करण शिथिल हो सकता है, 14B Q8 संस्करण तंग होगा; वही 24GB वीडियो मेमोरी, यदि संदर्भ को 4K से 32K तक खींचा जाता है, तो KV कैश भी उपलब्ध स्थान को खा जाएगा।

स्थानीय एलएलएम के लिए अनुशंसित विचार यह है कि पहले रननेबिलिटी का निर्णय लिया जाए, और फिर उपयोग और मॉडल की गुणवत्ता के आधार पर क्रमबद्ध किया जाए। उपयोगकर्ता द्वारा वीडियो मेमोरी, मेमोरी, सिस्टम और उपयोग में प्रवेश करने के बाद, बैकएंड वजन अधिभोग, केवी कैश और रनिंग मार्जिन का अनुमान लगाएगा। यदि मॉडल को आंशिक ऑफलोड की आवश्यकता है, तो पृष्ठ "पूरी तरह से चलने योग्य" के रूप में लपेटने के बजाय आंशिक रूप से ऑफलोड के रूप में दिखाई देगा। यह औसत उपयोगकर्ता के लिए महत्वपूर्ण है, क्योंकि लोड करने में सक्षम होना और प्रयोग करने योग्य होना दो अलग-अलग चीजें हैं।

6GB से 8GB: छोटे मॉडल और कम परिमाणीकरण को प्राथमिकता दें

6GB से 8GB वीडियो मेमोरी 1B, 3B, 4B, 7B के Q4 या Q5 परिमाणित मॉडल के लिए अधिक उपयुक्त है। यह रेंज हल्के प्रश्न और उत्तर, सरल कोड स्पष्टीकरण, सारांश, अनुवाद और कम-समवर्ती व्यक्तिगत उपयोग को संतुष्ट कर सकती है, लेकिन यह सभी लोकप्रिय बड़े मॉडलों को इसमें भरने के लिए उपयुक्त नहीं है। विज़न मॉडल, मल्टी-मोडल मॉडल और लंबे-संदर्भ कार्य तेजी से शीर्ष पर पहुंचेंगे क्योंकि छवि एनकोडर और केवी कैश भी मेमोरी पर कब्जा कर लेते हैं।

यदि उपयोगकर्ता के पास केवल 8GB वीडियो मेमोरी है, तो अनुशंसा पृष्ठ अधिक रूढ़िवादी होना चाहिए: आंशिक रूप से अनइंस्टॉल किए गए 30B मॉडल को रैंक करने के बजाय, एक छोटे मॉडल की अनुशंसा करें जो पूर्ण GPU पर चल सके। आंशिक ऑफलोडिंग कुछ परिदृश्यों में काम कर सकती है, लेकिन गति और अनुभव सीपीयू, मेमोरी बैंडविड्थ, पीसीआईई, अनुमान बैकएंड और सिस्टम लोड पर निर्भर करता है, और इसे सामान्य उपयोगकर्ताओं के लिए पहली पसंद के उत्तर के रूप में उपयोग नहीं किया जा सकता है।

12जीबी से 16जीबी: अधिकांश डेस्कटॉप उपयोगकर्ताओं के लिए पसंदीदा स्थान

12GB और 16GB कई उपभोक्ता-ग्रेड ग्राफ़िक्स कार्ड के लिए सामान्य कॉन्फ़िगरेशन हैं, जैसे RTX 3060 12GB, RTX 4070 12GB, और RTX 4060 Ti 16GB। यह रेंज आमतौर पर 7B से 14B मॉडल के Q4/Q5 परिमाणित संस्करणों के एक बैच को कवर कर सकती है, और प्रोग्रामिंग, सामान्य Q&A और हल्के RAG में विकल्पों के लिए जगह है। उपयोगकर्ताओं के लिए, कुंजी सबसे बड़े मॉडल का पीछा करना नहीं है, बल्कि एक ऐसा संस्करण ढूंढना है जो स्थिर रूप से चल सके, बहुत तेज़ न हो, और पर्याप्त संदर्भ लंबाई हो।

इस सीमा में, मात्रात्मक विकल्प सीधे अनुभव को प्रभावित करेंगे। Q4 को फिट करना आम तौर पर आसान है, Q5/Q6 अधिक सुसंगत है लेकिन अधिक वजन उठाता है, और Q8 उच्च गुणवत्ता के करीब है लेकिन हेडरूम को काफी कम कर देता है। स्थानीय एलएलएम के पृष्ठ पर उपयोगकर्ता को केवल मॉडल नाम देने के बजाय "आवश्यक मेमोरी" और "रनिंग मोड" देखने देना चाहिए। इस तरह, उपयोगकर्ताओं को पता चल जाएगा कि अनुशंसित परिणामों को उच्च रैंक क्यों दिया गया है।

24 जीबी से 48 जीबी: उच्च गुणवत्ता और लंबे संदर्भ का अनुसरण करना शुरू करें

24जीबी की वीडियो मेमोरी स्थानीय एलएलएम के लिए एक महत्वपूर्ण वाटरशेड है। यह उपयोगकर्ताओं को बड़े 14बी, 27बी, 30बी, 32बी मॉडल आज़माने या उच्च परिमाणीकरण और लंबे संदर्भों में 7बी/14बी मॉडल चलाने की अनुमति देता है। 48GB से ऊपर उच्च-गुणवत्ता परिमाणीकरण, अधिक प्रयोगात्मक स्थान, मल्टी-मॉडल स्विचिंग और लंबे संदर्भ कार्यों के लिए अधिक उपयुक्त है।

लेकिन बड़ी वीडियो मेमोरी का मतलब यह नहीं है कि सभी मॉडलों का उपयोग आसानी से किया जा सकता है। MoE मॉडल के कुल पैरामीटर और सक्रियण पैरामीटर अलग-अलग हैं। गति का अनुमान सक्रिय मापदंडों और मेमोरी रीडिंग पर निर्भर करता है; विज़ुअल मॉडल छवि एनकोडर पर भी विचार करता है; लंबे संदर्भ से केवी कैश बढ़ जाएगा। अनुशंसा प्रणाली को इन अंतरों को तोड़ने और उन्हें प्रदर्शित करने की आवश्यकता है ताकि उपयोगकर्ताओं को गलती से यह सोचने से रोका जा सके कि "यदि वीडियो मेमोरी पर्याप्त बड़ी है, तो यह तेज़ होनी चाहिए।"

मेमोरी और सीपीयू ऑफलोड कब उपयोगी है?

जब वीडियो मेमोरी पर्याप्त नहीं है लेकिन सिस्टम मेमोरी पर्याप्त है, तो कुछ बैकएंड सीपीयू मेमोरी में कुछ परतें डाल सकते हैं। यह मॉडल को लोड करने की अनुमति देता है, लेकिन धीमा हो जाता है, खासकर यदि असतत ग्राफिक्स कार्ड को PCIe पर जाने की आवश्यकता होती है। Apple सिलिकॉन की एकीकृत मेमोरी में समान PCIe क्लिफ़ नहीं है, लेकिन यह अभी भी मेमोरी बैंडविड्थ, मेटल/MLX कर्नेल और बैकग्राउंड फ़ुटप्रिंट से प्रभावित है।

इसलिए पेज को केवल पूर्ण जीपीयू, आंशिक ऑफलोड और सीपीयू के बीच अंतर करना चाहिए। सामान्य उपयोगकर्ताओं को जो सबसे अधिक जानने की आवश्यकता है वह है: पूर्ण GPU चलाने पर आमतौर पर सबसे अच्छा अनुभव होता है; आंशिक उतराई को एक विकल्प के रूप में इस्तेमाल किया जा सकता है; सीपीयू केवल मुख्य रूप से छोटे मॉडल या ऑफ़लाइन परीक्षण के लिए उपयुक्त है, और उच्च थ्रूपुट की अपेक्षा करने वाले चैट अनुभवों के लिए उपयुक्त नहीं है।

लोकल एलएलएम में चयन कैसे करें

वीडियो मेमोरी और मेमोरी में प्रवेश करने के बाद, पहले जांचें कि क्या शीर्ष कुछ पूर्ण जीपीयू रन हैं, और फिर परिमाणित संस्करण और गति विश्वास अंतराल को देखें। यदि पहला स्थान आंशिक अनइंस्टॉलेशन है, तो इसका मतलब है कि इसे गुणवत्ता या डाउनलोड लोकप्रियता में लाभ है, लेकिन जरूरी नहीं कि यह सर्वोत्तम अनुभव के साथ दैनिक विकल्प हो। उपयोगकर्ता रैंकिंग परिवर्तनों को देखने के लिए "गुणवत्ता पहले, संतुलित, लंबे संदर्भ" के बीच स्विच कर सकते हैं।

एसईओ पृष्ठों के लिए, लेख का लक्ष्य उपयोगकर्ताओं के लिए सभी मॉडलों को याद रखना नहीं है, बल्कि निर्णय लेने के तर्क को समझाना और उपयोगकर्ताओं को अनुशंसित टूल पर वापस लाना है। वीडियो मेमोरी, परिमाणीकरण, संदर्भ और ऑपरेशन मोड की अवधारणाओं को स्पष्ट रूप से समझाए जाने के बाद, उपयोगकर्ता टूल में अपना हार्डवेयर दर्ज कर सकते हैं और प्राप्त परिणाम विश्वसनीय होंगे।

कौन से स्थानीय बड़े मॉडल विभिन्न ग्राफिक्स मेमोरी के साथ चलाए जा सकते हैं?