الكمي يحل مشكلة الذاكرة
عادةً لا يمكن تشغيل النماذج الكبيرة المحلية مباشرة على بطاقات الرسومات الاستهلاكية ذات أوزان FP16 الكاملة، لذا فإن تنسيقات التكميم مثل GGUF، وAWQ، وGPTQ ستضغط الأوزان إلى تمثيلات أصغر. تمثل Q4 وQ5 وQ6 وQ8 مقايضات ذات دقة وأحجام مختلفة. كلما زادت الدقة، زادت استقرار الجودة وزاد الإشغال؛ كلما انخفضت الدقة، قل الإشغال، ولكنها قد تفقد استقرار الاستدلال أو أداء السياق الطويل أو قدرات المهام المعقدة.
بالنسبة للمستخدم العادي، ليست هناك حاجة لإتقان جميع تفاصيل القياس الكمي أولاً. الحكم الأكثر عملية هو: هل يمكن تحميل ذاكرة الفيديو الخاصة بك بالكامل؟ هل مهمتك حساسة للجودة؟ هل تحتاج إلى سياق طويل؟ تحدد هذه الأسئلة الثلاثة ما إذا كنت ستفضل Q4 أو Q5/Q6 أو Q8.
س4: خيار الإدخال الأكثر شيوعًا
مزايا Q4 هي الإشغال المنخفض ونطاق التشغيل الواسع. يصعب الوصول إلى العديد من الطرازات 7B و14B وحتى الطرازات الأكبر حجمًا في أجهزة سطح المكتب العادية بدون Q4. غالبًا ما يكون السؤال الرابع نقطة بداية معقولة للدردشة والتلخيص وتفسيرات التعليمات البرمجية خفيفة الوزن وإمكانيات نموذج الاستكشاف.
عيبه هو أن فقدان الجودة يكون أكثر وضوحًا، وقد يكون غير مستقر بشكل خاص في التفكير المعقد والرياضيات وتوليد الأكواد الطويلة والسياقات متعددة الجولات. إذا كان المستخدم يسعى إلى "التشغيل فقط"، فإن Q4 يعد خيارًا جيدًا؛ إذا كان المستخدم يسعى إلى إخراج مستقر، فيجب إعطاء الأولوية لتكوينات ذاكرة الرسومات Q5 أو Q6 أو أعلى.
س5 و س6: الحلويات ذات الجودة العالية بالنسبة لمعظم الناس
عادةً ما يكون Q5/Q6 بمثابة حل وسط أفضل للاستخدام على المدى الطويل. إنها تشغل مساحة أكبر من Q4، ولكنها أكثر استقرارًا من حيث الجودة للعديد من المهام، وهي مناسبة بشكل خاص للبرمجة وملخصات المقالات الطويلة والأسئلة والأجوبة المعرفية والسيناريوهات التي تتطلب قدرًا أقل من الوهم. سيعتبر العديد من مستخدمي LLM المحليين أن Q5_K_M أو Q6_K هو خيارهم المفضل للاستخدام اليومي.
يجب أن يكون وضع المعادلة الخاص بـ Local LLM أكثر انحيازًا تجاه هذا النوع من الإصدارات: لا تختار بقوة Q8 غير المستقر للجودة، ولا تفترض أدنى تقدير لتوفير الذاكرة. بعد قيام المستخدم بإدخال ذاكرة الفيديو، يمكن أن يساعد تقسيم الذاكرة في النتائج الموصى بها في تحديد ما إذا كان لا يزال هناك مجال للتكميم الحالي.
س 8: الجودة أكثر استقرارًا ولكن الاحتلال أعلى
Q8 قريب من تجربة عالية الدقة وعادة ما يكون مناسبًا للأجهزة ذات ذاكرة الرسومات الأكبر، أو عندما يختار المستخدمون صراحةً إعطاء الأولوية للجودة. الميزة هي أن خسارة التكميم أصغر وأن الناتج أكثر استقرارًا؛ العيب هو أن استخدام ذاكرة الفيديو قريب من حالة الضغط المنخفض، مما سيؤدي إلى تقليل ذاكرة التخزين المؤقت KV وهامش التشغيل.
إذا كان Q8 يتطلب تفريغًا جزئيًا لذاكرة وحدة المعالجة المركزية، فقد لا تكون التجربة الفعلية بنفس جودة إصدار تشغيل GPU الأقل كميًا ولكن الكامل. لا يمكن فرز أنظمة التوصيات حسب الدقة الكمية فقط، ولكن يجب أيضًا مراعاة طرق التشغيل ونطاقات السرعة واستخدامات المستخدم.
السياق الطويل يغير التكميم الأمثل
ينظر العديد من المستخدمين فقط إلى وزن النموذج ويتجاهلون ذاكرة التخزين المؤقت KV. تزداد ذاكرة التخزين المؤقت KV بشكل ملحوظ مع انتقال السياق من 4K إلى 32K إلى 128K. قد يحتاج طراز Q6 الذي يمكن تشغيله بدقة 4K إلى الرجوع إلى Q4 أو التبديل إلى نموذج أصغر في سياق طويل.
لذلك، يجب ألا يوصي وضع "السياق الطويل أولاً" بالنموذج الأكبر فحسب، بل يجب أن يحتفظ بهامش ذاكرة أكبر. بالنسبة لـ RAG، وقراءة المستندات الطويلة، وتحليل قاعدة التعليمات البرمجية، يعد سياق المعالجة المستقر أكثر أهمية من الجودة النظرية لإجابة واحدة.
كيفية فهم التفضيلات في LLM المحلية
ستحاول أولوية الجودة اختيار المرشحين ذوي الجودة الأعلى أو المعلمات الأكبر أو التكميم الأعلى؛ سيؤدي التوازن إلى التنازل بين الجودة وهامش الذاكرة والسرعة؛ سيحدد السياق الطويل بشكل متحفظ إشغالًا أصغر لمنع ذاكرة التخزين المؤقت KV من استهلاك مساحة التشغيل.
هذا هو المكان الذي يجب أن تعمل فيه المدونات والأدوات معًا. تشرح المقالة المفاضلات الأساسية للربع الرابع/الربع الخامس/الربع السادس/الربع الثامن. توفر الأداة الإصدار الحالي القابل للتشغيل استنادًا إلى أجهزة المستخدم وبيانات نموذج Hugging Face، وتوجه رابط التنزيل إلى صفحة النموذج المقابلة.