كيف تؤثر ذاكرة Apple الموحدة على LLM المحلي؟

اشرح لماذا لا يمكن استخدام إجمالي الذاكرة على جهاز Mac كذاكرة فيديو، وكيفية اختيار الطراز المناسب للأجهزة ذات 16 جيجابايت و32 جيجابايت و64 جيجابايت و128 جيجابايت.

الذاكرة الموحدة لا تعني "إمكانية استخدام جميع الموديلات"

يتم استخدام الذاكرة الموحدة من Apple Silicon بواسطة وحدة المعالجة المركزية (CPU) ووحدة معالجة الرسومات (GPU) والنظام والتطبيقات وخدمات الخلفية. وتتمثل ميزتها في أن وحدة المعالجة المركزية ووحدة معالجة الرسومات تشتركان في نفس الذاكرة عالية السرعة، كما أن تجربة نشر العديد من أدوات النماذج المحلية أبسط من تجربة بطاقات الرسومات المستقلة التقليدية؛ ولكن هذا لا يعني أنه يمكن استخدام كل السعة 32 جيجابايت أو 64 جيجابايت أو 128 جيجابايت كمساحة للوزن النموذجي.

عند تحديد نموذج فعليًا، تحتاج إلى ترك بدل لنظام التشغيل macOS، والمتصفحات، وIDEs، وخدمات الاستدلال، وذاكرة التخزين المؤقت KV، والموترات المؤقتة. إذا كان جهاز Mac بسعة 32 جيجابايت يزن الطراز إلى 28 جيجابايت، فقد يبدو أنه مناسب تمامًا. ومع ذلك، في التشغيل الفعلي، قد يتم ضغط الذاكرة بشكل متكرر، أو تبديلها إلى قرص، أو قد تنخفض السرعة بشكل ملحوظ. تقدر LLM المحلية المساحة المتوفرة بشكل أكثر تحفظًا في وضع Mac.

ما هي السعة 16 جيجابايت و32 جيجابايت و64 جيجابايت و128 جيجابايت المناسبة؟

يعد جهاز Mac بسعة 16 جيجابايت أكثر ملاءمة للطرز الصغيرة ذات الحجم المنخفض إلى المتوسط، مثل إصدارات Q4/Q5 من 3B و4B و7B. يمكن أن يرضي الدردشة الخفيفة والملخص والترجمة والمساعدة البسيطة في التعليمات البرمجية، ولكنه غير مناسب للسياق الطويل أو النماذج المرئية. يمكن أن تغطي سعة 32 جيجابايت المزيد من طرازات 7B/14B، ويمكنها أيضًا تجربة إصدارات كمية أكثر استقرارًا، وهي نقطة بداية مشتركة للمطورين العاديين.

وبعد 64 جيجابايت، يمكن للمستخدمين تجربة طرازات MoE أو 30B الأكبر حجمًا، والتي يمكن أن تترك أيضًا مساحة للسياقات الطويلة وتعدد المهام. تعد سعة 128 جيجابايت مناسبة لنطاق تجربة أكبر، مثل النماذج الكبيرة عالية الكمية، ومقارنات إصدارات النماذج المتعددة، والسياقات الطويلة، وسير العمل المحلي المعقد. ولكن حتى مع سعة 128 جيجابايت، لا تزال بحاجة إلى إلقاء نظرة على أوزان النماذج وذاكرة التخزين المؤقت KV والواجهة الخلفية والسرعة.

الاختلافات بين Metal وMLX وllama.cpp

تتضمن الواجهات الخلفية الشائعة على نظام Mac llama.cpp Metal وMLX وOllama وLM Studio. تختلف التحسينات الأساسية لهذه الأدوات، وقد تختلف سرعة نفس النموذج على واجهات خلفية مختلفة. ويعتمد نموذج MoE بشكل خاص على تنفيذ النواة، ولا يمكن استنتاج السرعة باستخدام كميات المعلمات وحدها.

لذلك، يجب أن يكون tok/s الموجود في صفحة التوصية تقديرًا أو نطاقًا متحفظًا، وليس وعدًا مطلقًا. ما يحتاجه المستخدمون حقًا هو اتجاه الفحص: ما هي النماذج التي يمكن تحميلها باحتمالية عالية، وما هي النماذج التي تتطلب المزيد من الذاكرة، وما هي النماذج التي يمكن تشغيلها نظريًا فقط ولكنها تتمتع بتجربة غير مستقرة.

لماذا يجب أن تفتح سعة 128 جيجابايت الطراز الأكبر؟

إذا كانت 32 جيجابايت و64 جيجابايت و128 جيجابايت تعطي نفس التوصية بالجودة أولاً، فهذا يعني عادةً أن خوارزمية الفرز لا تستفيد بشكل صحيح من تغيير السعة. يجب أن تسمح الذاكرة الموحدة الأكبر حجمًا للنماذج ذات أعداد المعلمات الأعلى أو التكميم الأعلى أو السياق الأطول بالدخول إلى المجموعة المرشحة. ويجب أن تعكس نماذج الجودة أولاً هذا الأمر على وجه الخصوص.

لكن "الأكبر" ليس هو الهدف الوحيد أيضًا. تحتاج أنظمة التوصية إلى التصنيف بين جودة النموذج ومطابقة المهام ووضع التنفيذ والثقة في السرعة وهامش الذاكرة. يمكن لجهاز Mac بسعة 128 جيجابايت تشغيل طرز أكبر، لكن هذا لا يعني أنه يجب التوصية بالطراز الأكبر بشكل أعمى في كل سيناريو؛ قد تختلف أفضل الخيارات للمهام البرمجية والمهام العامة والرياضية والمرئية.

ما الذي يجب على مستخدمي Mac اختياره؟

يمكن للمستخدمين العاديين البدء بالوضع المتوازن. إذا كانت النتائج كلها عبارة عن تشغيل كامل لوحدة معالجة الرسومات/الذاكرة الموحدة، يكون التكوين مستقرًا؛ إذا أظهر عدد كبير من النتائج تفريغًا جزئيًا أو سرعة ثقة منخفضة، فستحتاج إلى تقليل القياس الكمي أو تقصير السياق أو اختيار نموذج أصغر. عند القيام بمهام البرمجة، تعد إمكانات التعليمات البرمجية وطول سياق النموذج أمرًا مهمًا؛ عند القيام بالمهام المرئية، تأكد من أن النموذج هو بالفعل نموذج متعدد الوسائط.

تكمن قيمة Local LLM في تحويل هذه الأحكام إلى مدخلات مرئية، بدلاً من السماح للمستخدمين بتخمين واحد تلو الآخر على Hugging Face. يشرح منشور المدونة المبادئ، وتقوم الأداة بدمج قائمة النماذج المباشرة مع أجهزة المستخدم لتقديم التوصيات الحالية.