Local LLM

यों

Q4, Q5, Q6, Q8 मुझे परिमाणीकरण कैसे चुनना चाहिए?

मेमोरी उपयोग, गुणवत्ता हानि और गति व्यापार-बंद की अधिक सामान्य जीजीयूएफ मात्रा निर्धारण उपयोगकर्ताओं को गुणवत्ता प्राथमिकता, संतुलन और लंबे संदर्भ की तीन प्राथमिकताओं को समझने में मदद करती है।

परिमाणीकरण स्मृति समस्या का समाधान करता है

स्थानीय बड़े मॉडल आमतौर पर पूर्ण FP16 वजन के साथ सीधे उपभोक्ता-ग्रेड ग्राफिक्स कार्ड पर नहीं चल सकते हैं, इसलिए GGUF, AWQ और GPTQ जैसे परिमाणीकरण प्रारूप वजन को छोटे प्रतिनिधित्व में संपीड़ित करेंगे। Q4, Q5, Q6, और Q8 विभिन्न परिशुद्धता और आकार के ट्रेड-ऑफ का प्रतिनिधित्व करते हैं। सटीकता जितनी अधिक होगी, गुणवत्ता उतनी ही स्थिर होगी और अधिभोग उतना ही अधिक होगा; सटीकता जितनी कम होगी, अधिभोग उतना ही कम होगा, लेकिन तर्क स्थिरता, लंबे संदर्भ प्रदर्शन, या जटिल कार्य क्षमताओं को खो सकता है।

औसत उपयोगकर्ता के लिए, पहले परिमाणीकरण के सभी विवरणों में महारत हासिल करने की आवश्यकता नहीं है। एक अधिक व्यावहारिक निर्णय यह है: क्या आपकी वीडियो मेमोरी पूरी तरह से लोड की जा सकती है? क्या आपका कार्य गुणवत्ता-संवेदनशील है? क्या आपको लंबे संदर्भ की आवश्यकता है? ये तीन प्रश्न निर्धारित करते हैं कि Q4, Q5/Q6, या Q8 का पक्ष लिया जाए या नहीं।

Q4: सबसे आम प्रवेश विकल्प

Q4 के फायदे कम व्यवसाय और विस्तृत परिचालन सीमा हैं। 7बी, 14बी और यहां तक ​​कि बड़े मॉडलों में से कई को क्यू4 के बिना नियमित डेस्कटॉप हार्डवेयर में शामिल करना मुश्किल है। Q4 अक्सर चैट, सारांश, हल्के कोड स्पष्टीकरण और अन्वेषण मॉडल क्षमताओं के लिए एक उचित प्रारंभिक बिंदु होता है।

इसका नुकसान यह है कि गुणवत्ता की हानि अधिक स्पष्ट है, और यह विशेष रूप से जटिल तर्क, गणित, लंबी कोड पीढ़ी और बहु-गोल संदर्भों में अधिक अस्थिर हो सकती है। यदि उपयोगकर्ता "सिर्फ दौड़ना" चाहता है, तो Q4 एक अच्छा विकल्प है; यदि उपयोगकर्ता स्थिर आउटपुट का अनुसरण करता है, तो Q5, Q6 या उच्चतर ग्राफ़िक्स मेमोरी कॉन्फ़िगरेशन को प्राथमिकता दी जानी चाहिए।

Q5 और Q6: अधिकांश लोगों के लिए गुणवत्तापूर्ण मिठाइयाँ

Q5/Q6 आमतौर पर दीर्घकालिक उपयोग के लिए एक बेहतर समझौता है। वे Q4 की तुलना में अधिक जगह लेते हैं, लेकिन कई कार्यों के लिए गुणवत्ता में अधिक स्थिर होते हैं, और विशेष रूप से प्रोग्रामिंग, लंबे लेख सारांश, ज्ञान प्रश्नोत्तर और ऐसे परिदृश्यों के लिए उपयुक्त होते हैं जिनमें कम भ्रम की आवश्यकता होती है। कई स्थानीय एलएलएम उपयोगकर्ता दैनिक उपयोग के लिए Q5_K_M या Q6_K को अपनी पसंदीदा पसंद मानेंगे।

स्थानीय एलएलएम का इक्वलाइज़ेशन मोड इस प्रकार के संस्करण के प्रति अधिक पक्षपाती होना चाहिए: न तो गुणवत्ता के लिए अस्थिर Q8 को जबरदस्ती चुनें, न ही मेमोरी को बचाने के लिए सबसे कम परिमाणीकरण के लिए डिफ़ॉल्ट। उपयोगकर्ता द्वारा वीडियो मेमोरी इनपुट करने के बाद, अनुशंसित परिणामों में मेमोरी विभाजित होने से यह निर्धारित करने में मदद मिल सकती है कि वर्तमान परिमाणीकरण के लिए अभी भी जगह है या नहीं।

Q8: गुणवत्ता अधिक स्थिर है लेकिन व्यवसाय अधिक है

Q8 उच्च-परिशुद्धता अनुभव के करीब है और आमतौर पर बड़ी ग्राफिक्स मेमोरी वाले उपकरणों के लिए उपयुक्त है, या जब उपयोगकर्ता स्पष्ट रूप से गुणवत्ता को प्राथमिकता देना चुनते हैं। लाभ यह है कि परिमाणीकरण हानि कम होती है और आउटपुट अधिक स्थिर होता है; नुकसान यह है कि वीडियो मेमोरी का उपयोग कम संपीड़न स्थिति के करीब है, जो केवी कैश और रनिंग मार्जिन को कम कर देगा।

यदि Q8 को सीपीयू मेमोरी में आंशिक ऑफलोडिंग की आवश्यकता होती है, तो वास्तविक अनुभव कम मात्रा वाले लेकिन पूर्ण जीपीयू चलने वाले संस्करण जितना अच्छा नहीं हो सकता है। अनुशंसा प्रणालियों को केवल मात्रात्मक सटीकता के आधार पर क्रमबद्ध नहीं किया जा सकता है, बल्कि संचालन विधियों, गति सीमा और उपयोगकर्ता के उपयोग पर भी विचार करना चाहिए।

लंबा संदर्भ इष्टतम परिमाणीकरण को बदल देता है

कई उपयोगकर्ता केवल मॉडल के वजन को देखते हैं और केवी कैश को नजरअंदाज कर देते हैं। जैसे-जैसे संदर्भ 4K से 32K से 128K तक जाता है, KV कैश काफी बढ़ जाता है। एक Q6 मॉडल जो 4K पर चल सकता है, उसे लंबे संदर्भ में Q4 में डाउनग्रेड करने या छोटे मॉडल पर स्विच करने की आवश्यकता हो सकती है।

इसलिए, "लंबे संदर्भ पहले" मोड को केवल सबसे बड़े मॉडल की अनुशंसा नहीं करनी चाहिए, बल्कि अधिक मेमोरी मार्जिन बनाए रखना चाहिए। आरएजी, लंबे दस्तावेज़ पढ़ने और कोड आधार विश्लेषण के लिए, एकल उत्तर की सैद्धांतिक गुणवत्ता की तुलना में स्थिर प्रसंस्करण संदर्भ अधिक महत्वपूर्ण है।

स्थानीय एलएलएम में प्राथमिकताओं को कैसे समझें

गुणवत्ता प्राथमिकता उच्च गुणवत्ता, बड़े मापदंडों या उच्च परिमाणीकरण वाले उम्मीदवारों का चयन करने का प्रयास करेगी; संतुलन गुणवत्ता, मेमोरी मार्जिन और गति के बीच समझौता करेगा; लंबे संदर्भ में केवी कैश को रनिंग स्पेस को खाने से रोकने के लिए रूढ़िवादी रूप से छोटे अधिभोग का चयन किया जाएगा।

यहीं पर ब्लॉग और टूल को एक साथ काम करना चाहिए। लेख Q4/Q5/Q6/Q8 के बुनियादी ट्रेड-ऑफ़ की व्याख्या करता है। उपकरण उपयोगकर्ता के हार्डवेयर और हगिंग फेस मॉडल डेटा के आधार पर वर्तमान चलने योग्य संस्करण प्रदान करता है, और डाउनलोड लिंक को संबंधित मॉडल पृष्ठ पर इंगित करता है।

Local LLM अनुशंसा टूल पर लौटें