Local LLM VRAM Guide

من 6 غيغابايت، و8 غيغابايت، و12 غيغابايت، و24 غيغابايت إلى 48 غيغابايت، اشرح كيفية دمج حجم معلمة النموذج والإصدار الكمي وذاكرة التخزين المؤقت KV والحمل الزائد للنظام لتحديد ما إذا كان يمكن تحميله.

دعونا نلقي نظرة على الاستنتاج أولاً: ذاكرة الفيديو ليست عنق الزجاجة الوحيد

لتحديد ما إذا كان يمكن تشغيل نموذج محلي كبير، لا يمكنك فقط إلقاء نظرة على معلمات النموذج، ولا أرقام ذاكرة الرسومات فقط. ما يؤثر حقًا على التحميل هو أوزان النموذج، وتنسيق التكميم، وذاكرة التخزين المؤقت KV، وتشغيل إطار العمل، واستخدام خلفية النظام، وما إذا كانت هناك حاجة إلى إلغاء تحميل بعض الطبقات على ذاكرة وحدة المعالجة المركزية. قد يتم تخفيف إصدار Q4 من طراز 7B، وسيكون إصدار 14B Q8 ضيقًا؛ نفس ذاكرة الفيديو بسعة 24 جيجابايت، إذا تم سحب السياق من 4K إلى 32K، فستستهلك ذاكرة التخزين المؤقت KV أيضًا المساحة المتوفرة.

الفكرة الموصى بها لـ Local LLM هي إصدار حكم على قابلية التشغيل أولاً، ثم الفرز حسب الاستخدام وجودة النموذج. بعد أن يقوم المستخدم بإدخال ذاكرة الفيديو والذاكرة والنظام والاستخدام، ستقوم الواجهة الخلفية بتقدير وزن الإشغال وذاكرة التخزين المؤقت KV وهامش التشغيل. إذا كان النموذج يتطلب إلغاء تحميل جزئي، فستظهر الصفحة على أنها تم إلغاء تحميلها جزئيًا، بدلاً من تغليفها على أنها "قابلة للتشغيل بالكامل". وهذا أمر مهم بالنسبة للمستخدم العادي، لأن القدرة على التحميل والقابلية للاستخدام هما شيئان مختلفان.

من 6 جيجابايت إلى 8 جيجابايت: إعطاء الأولوية للنماذج الصغيرة والتكميم المنخفض

تعد ذاكرة الفيديو بسعة 6 جيجابايت إلى 8 جيجابايت أكثر ملاءمة للنماذج الكمية Q4 أو Q5 من 1B، 3B، 4B، 7B. يمكن أن يلبي هذا النطاق أسئلة وأجوبة خفيفة الوزن وشرحًا بسيطًا للكود وملخصًا وترجمة واستخدامًا شخصيًا منخفض التزامن، ولكنه غير مناسب لحشو جميع النماذج الكبيرة الشائعة فيه. ستصل نماذج الرؤية والنماذج متعددة الوسائط والمهام ذات السياق الطويل إلى القمة بشكل أسرع لأن برنامج تشفير الصور وذاكرة التخزين المؤقت KV يشغلان الذاكرة أيضًا.

إذا كان لدى المستخدم 8 جيجابايت فقط من ذاكرة الفيديو، فيجب أن تكون صفحة التوصية أكثر تحفظًا: بدلاً من ذلك، أوصي بنموذج صغير يمكن تشغيله على وحدة معالجة الرسومات الكاملة، بدلاً من تصنيف نموذج 30B في نموذج غير مثبت جزئيًا. يمكن أن يعمل التفريغ الجزئي في بعض السيناريوهات، لكن السرعة والخبرة تعتمدان على وحدة المعالجة المركزية وعرض النطاق الترددي للذاكرة وPCIe والواجهة الخلفية للاستدلال وتحميل النظام، ولا يمكن استخدامها كإجابة الخيار الأول للمستخدمين العاديين.

12 جيجابايت إلى 16 جيجابايت: المكان المثالي لمعظم مستخدمي سطح المكتب

تعد 12 جيجابايت و16 جيجابايت تكوينات شائعة للعديد من بطاقات الرسومات المخصصة للمستهلكين، مثل RTX 3060 12 جيجابايت، وRTX 4070 12 جيجابايت، وRTX 4060 Ti 16 جيجابايت. يمكن أن يغطي هذا النطاق عادةً مجموعة من إصدارات Q4/Q5 الكمية من نماذج 7B إلى 14B، وهناك مجال للخيارات في البرمجة، والأسئلة والأجوبة العامة، وRAG خفيف الوزن. بالنسبة للمستخدمين، المفتاح ليس متابعة النموذج الأكبر، ولكن العثور على إصدار يمكن تشغيله بثبات، وليس سريعًا جدًا، وله طول سياق كافٍ.

في هذا النطاق، ستؤثر الاختيارات الكمية بشكل مباشر على التجربة. Q4 أسهل في الملاءمة بشكل عام، Q5/Q6 أكثر اتساقًا ولكنه يستهلك وزنًا أكبر، وQ8 قريب من الجودة العالية ولكنه يضغط بشكل كبير على الإرتفاع. يجب أن تتيح صفحة Local LLM للمستخدم رؤية "الذاكرة المطلوبة" و"وضع التشغيل" بدلاً من مجرد إعطاء اسم الطراز. وبهذه الطريقة، سيعرف المستخدمون سبب تصنيف النتائج الموصى بها في مرتبة أعلى.

من 24 جيجابايت إلى 48 جيجابايت: ابدأ في السعي للحصول على جودة أعلى وسياق أطول

تعد ذاكرة الفيديو التي تبلغ سعتها 24 جيجابايت نقطة تحول مهمة بالنسبة إلى LLM المحلية. فهو يسمح للمستخدمين بتجربة نماذج أكبر 14B، 27B، 30B، 32B، أو تشغيل نماذج 7B/14B في تكميم أعلى وسياقات أطول. يعد ما يزيد عن 48 جيجابايت أكثر ملاءمة للقياس الكمي عالي الجودة ومساحة تجريبية أكبر والتبديل متعدد النماذج ومهام السياق الأطول.

لكن ذاكرة الفيديو الأكبر حجمًا لا تعني أنه يمكن استخدام جميع الطرز بسهولة. تختلف المعلمات الإجمالية ومعلمات التنشيط لنموذج MoE. يعتمد تقدير السرعة على المعلمات النشطة وقراءة الذاكرة؛ يأخذ النموذج المرئي أيضًا في الاعتبار أداة تشفير الصورة؛ سياق طويل سيزيد من ذاكرة التخزين المؤقت KV. يحتاج نظام التوصية إلى تحليل هذه الاختلافات وعرضها لمنع المستخدمين من التفكير خطأً أنه "إذا كانت ذاكرة الفيديو كبيرة بما يكفي، فيجب أن تكون سريعة".

متى يكون تفريغ الذاكرة ووحدة المعالجة المركزية مفيدًا؟

عندما لا تكون ذاكرة الفيديو كافية ولكن ذاكرة النظام كافية، يمكن لبعض الواجهات الخلفية وضع بعض الطبقات في ذاكرة وحدة المعالجة المركزية. يسمح هذا للنموذج بالتحميل، ولكنه يميل إلى التباطؤ، خاصة إذا كانت بطاقة الرسومات المنفصلة تحتاج إلى تجاوز PCIe. لا تحتوي الذاكرة الموحدة من Apple Silicon على نفس جرف PCIe، ولكنها لا تزال تتأثر بعرض النطاق الترددي للذاكرة، ونواة Metal/MLX، وبصمة الخلفية.

لذلك يجب أن تميز الصفحة بين وحدة معالجة الرسومات الكاملة والتفريغ الجزئي ووحدة المعالجة المركزية فقط. أكثر ما يحتاج المستخدمون العاديون إلى معرفته هو: عادةً ما يتمتع تشغيل وحدة معالجة الرسومات الكاملة بأفضل تجربة؛ ويمكن استخدام التفريغ الجزئي كبديل؛ وحدة المعالجة المركزية (CPU) مناسبة فقط للنماذج الصغيرة أو الاختبارات دون الاتصال بالإنترنت، وليست مناسبة لتجارب الدردشة التي تتوقع إنتاجية عالية.

كيفية إجراء التحديدات مع LLM المحلية

بعد إدخال ذاكرة الفيديو والذاكرة، تحقق أولاً مما إذا كانت الأجزاء القليلة الأولى عبارة عن تشغيل كامل لوحدة معالجة الرسومات، ثم انظر إلى الإصدار الكمي وفاصل الثقة في السرعة. إذا كان المقام الأول هو إلغاء التثبيت الجزئي، فهذا يعني أنه يتمتع بميزة الجودة أو شعبية التنزيل، ولكنه ليس بالضرورة الاختيار اليومي مع أفضل تجربة. يمكن للمستخدمين التبديل بين "الجودة أولاً، المتوازن، السياق الطويل" لمراقبة تغييرات التصنيف.

بالنسبة لصفحات تحسين محركات البحث، فإن الهدف من المقالة ليس حفظ جميع النماذج للمستخدمين، ولكن شرح منطق اتخاذ القرار وإعادة المستخدمين إلى الأداة الموصى بها. بعد أن يتم شرح مفاهيم ذاكرة الفيديو والتكميم والسياق ووضع التشغيل بوضوح، يمكن للمستخدمين إدخال أجهزتهم الخاصة في الأداة وستكون النتائج التي تم الحصول عليها ذات مصداقية.

ما هي النماذج الكبيرة المحلية التي يمكن تشغيلها بذاكرات رسومية مختلفة؟