Local LLM VRAM Guide

ตั้งแต่ 6GB, 8GB, 12GB, 24GB ถึง 48GB อธิบายว่าปริมาตรพารามิเตอร์ของโมเดล เวอร์ชันเชิงปริมาณ แคช KV และโอเวอร์เฮดของระบบรวมกันเพื่อพิจารณาว่าสามารถโหลดได้หรือไม่

มาดูข้อสรุปกันก่อน: หน่วยความจำวิดีโอไม่ได้เป็นเพียงปัญหาคอขวดเท่านั้น

เพื่อตรวจสอบว่าโมเดลขนาดใหญ่ในเครื่องสามารถทำงานได้หรือไม่ คุณไม่สามารถดูเฉพาะพารามิเตอร์ของโมเดล หรือดูเฉพาะหมายเลขหน่วยความจำกราฟิกเท่านั้น สิ่งที่ส่งผลต่อการโหลดจริงๆ คือ น้ำหนักโมเดล รูปแบบการจัดปริมาณ แคช KV การรันโอเวอร์เฮดของเฟรมเวิร์ก การใช้งานพื้นหลังของระบบ และบางเลเยอร์จำเป็นต้องออฟโหลดไปยังหน่วยความจำ CPU หรือไม่ เวอร์ชัน Q4 ของรุ่น 7B อาจจะผ่อนคลาย ส่วนรุ่น 14B Q8 จะแน่น หน่วยความจำวิดีโอขนาด 24GB เดียวกัน หากบริบทถูกดึงจาก 4K เป็น 32K แคช KV ก็จะกินพื้นที่ว่างด้วย

แนวคิดที่แนะนำสำหรับ Local LLM คือการพิจารณาความสามารถในการรันก่อน จากนั้นจึงเรียงลำดับตามการใช้งานและคุณภาพของโมเดล หลังจากที่ผู้ใช้เข้าสู่หน่วยความจำวิดีโอ หน่วยความจำ ระบบ และการใช้งาน แบ็กเอนด์จะประมาณการใช้น้ำหนัก แคช KV และระยะขอบที่ทำงาน หากโมเดลต้องการออฟโหลดบางส่วน เพจจะปรากฏเป็นออฟโหลดบางส่วน แทนที่จะล้อมไว้เป็น "รันได้อย่างสมบูรณ์" นี่เป็นสิ่งสำคัญสำหรับผู้ใช้ทั่วไป เนื่องจากความสามารถในการโหลดและการใช้งานเป็นสองสิ่งที่แตกต่างกัน

6GB ถึง 8GB: จัดลำดับความสำคัญของโมเดลขนาดเล็กและปริมาณข้อมูลต่ำ

หน่วยความจำวิดีโอขนาด 6GB ถึง 8GB เหมาะสำหรับรุ่น Q4 หรือ Q5 ที่เป็นปริมาณ 1B, 3B, 4B, 7B ช่วงนี้สามารถตอบสนองคำถามและคำตอบที่ไม่ซับซ้อน คำอธิบายโค้ดง่ายๆ สรุป การแปล และการใช้งานส่วนบุคคลที่ทำงานพร้อมกันต่ำ แต่ไม่เหมาะสำหรับการบรรจุโมเดลขนาดใหญ่ยอดนิยมทั้งหมดลงไป โมเดลวิชั่น โมเดลหลายรูปแบบ และงานที่มีบริบทยาวจะถึงจุดสูงสุดเร็วขึ้น เนื่องจากตัวเข้ารหัสรูปภาพและแคช KV ยังใช้หน่วยความจำอีกด้วย

หากผู้ใช้มีหน่วยความจำวิดีโอเพียง 8GB หน้าคำแนะนำควรระมัดระวังมากกว่า: แนะนำให้เป็นรุ่นขนาดเล็กที่สามารถทำงานบน GPU เต็มรูปแบบ แทนที่จะจัดอันดับรุ่น 30B ในรูปแบบที่ถอนการติดตั้งบางส่วน การออฟโหลดบางส่วนสามารถทำงานได้ในบางสถานการณ์ แต่ความเร็วและประสบการณ์นั้นขึ้นอยู่กับ CPU, แบนด์วิดท์หน่วยความจำ, PCIe, แบ็กเอนด์การอนุมาน และโหลดของระบบ และไม่สามารถใช้เป็นคำตอบตัวเลือกแรกสำหรับผู้ใช้ทั่วไปได้

12GB ถึง 16GB: จุดที่น่าสนใจสำหรับผู้ใช้เดสก์ท็อปส่วนใหญ่

12GB และ 16GB เป็นการกำหนดค่าทั่วไปสำหรับกราฟิกการ์ดระดับผู้บริโภคจำนวนมาก เช่น RTX 3060 12GB, RTX 4070 12GB และ RTX 4060 Ti 16GB โดยปกติช่วงนี้จะครอบคลุมชุดของเวอร์ชันเชิงปริมาณของรุ่น 7B ถึง 14B ในไตรมาสที่ 4/ไตรมาส 5 และมีตัวเลือกในการตั้งโปรแกรม การถามตอบทั่วไป และ RAG แบบน้ำหนักเบา สำหรับผู้ใช้ สิ่งสำคัญไม่ใช่การไล่ตามโมเดลที่ใหญ่ที่สุด แต่ต้องหาเวอร์ชันที่สามารถทำงานได้อย่างเสถียร ไม่เร็วเกินไป และมีความยาวบริบทเพียงพอ

ในช่วงนี้ ตัวเลือกเชิงปริมาณจะส่งผลโดยตรงต่อประสบการณ์ โดยทั่วไปแล้ว Q4 จะติดตั้งได้ง่ายกว่า Q5/Q6 มีความสม่ำเสมอมากกว่า แต่รับน้ำหนักมากกว่า และ Q8 ใกล้เคียงกับคุณภาพสูงแต่บีบพื้นที่ส่วนหัวอย่างมาก หน้า Local LLM ควรให้ผู้ใช้เห็น "หน่วยความจำที่จำเป็น" และ "โหมดการทำงาน" แทนที่จะให้เพียงชื่อรุ่น ด้วยวิธีนี้ ผู้ใช้จะรู้ว่าเหตุใดผลลัพธ์ที่แนะนำจึงมีอันดับสูงกว่า

24GB ถึง 48GB: เริ่มดำเนินการตามคุณภาพที่สูงขึ้นและบริบทที่ยาวขึ้น

หน่วยความจำวิดีโอขนาด 24GB เป็นแหล่งต้นน้ำที่สำคัญสำหรับ LLM ในท้องถิ่น ช่วยให้ผู้ใช้สามารถลองใช้โมเดล 14B, 27B, 30B, 32B ที่มีขนาดใหญ่ขึ้น หรือเรียกใช้โมเดล 7B/14B ในปริมาณที่สูงขึ้นและบริบทที่ยาวขึ้น ขนาดที่สูงกว่า 48GB เหมาะกว่าสำหรับการวัดปริมาณคุณภาพสูง พื้นที่ทดลองที่มากขึ้น การสลับหลายโมเดล และงานตามบริบทที่ยาวขึ้น

แต่หน่วยความจำวิดีโอที่ใหญ่ขึ้นก็ไม่ได้หมายความว่าทุกรุ่นจะใช้งานได้ง่าย พารามิเตอร์ทั้งหมดและพารามิเตอร์การเปิดใช้งานของรุ่น MoE นั้นแตกต่างกัน การประมาณความเร็วขึ้นอยู่กับพารามิเตอร์ที่ใช้งานและการอ่านหน่วยความจำ โมเดลภาพยังพิจารณาตัวเข้ารหัสรูปภาพด้วย บริบทที่ยาวจะเพิ่มแคช KV ระบบแนะนำจำเป็นต้องแยกความแตกต่างเหล่านี้ออกและแสดงไว้เพื่อป้องกันไม่ให้ผู้ใช้เข้าใจผิดว่า "ถ้าหน่วยความจำวิดีโอมีขนาดใหญ่เพียงพอ ก็จะต้องเร็ว"

ออฟโหลดหน่วยความจำและ CPU จะมีประโยชน์เมื่อใด

เมื่อหน่วยความจำวิดีโอไม่เพียงพอแต่หน่วยความจำระบบเพียงพอ แบ็กเอนด์บางส่วนสามารถใส่บางเลเยอร์ลงในหน่วยความจำ CPU ได้ ซึ่งจะทำให้โมเดลสามารถโหลดได้ แต่มีแนวโน้มว่าจะช้าลง โดยเฉพาะอย่างยิ่งหากการ์ดกราฟิกแยกจำเป็นต้องใช้ผ่าน PCIe หน่วยความจำแบบรวมของ Apple Silicon ไม่มี PCIe Cliff แบบเดียวกัน แต่ยังคงได้รับผลกระทบจากแบนด์วิธหน่วยความจำ เคอร์เนล Metal/MLX และรอยเท้าพื้นหลัง

ดังนั้น หน้าเว็บควรแยกแยะระหว่าง GPU เต็มรูปแบบ ออฟโหลดบางส่วน และ CPU เท่านั้น สิ่งที่ผู้ใช้ทั่วไปต้องรู้มากที่สุดคือ: การใช้งาน GPU เต็มรูปแบบมักจะให้ประสบการณ์ที่ดีที่สุด การขนถ่ายบางส่วนสามารถนำมาใช้เป็นทางเลือกได้ CPU ส่วนใหญ่เหมาะสำหรับรุ่นขนาดเล็กหรือการทดสอบออฟไลน์ และไม่เหมาะสำหรับประสบการณ์การแชทที่คาดหวังปริมาณงานสูง

วิธีการเลือกด้วย Local LLM

หลังจากเข้าสู่หน่วยความจำวิดีโอและหน่วยความจำแล้ว ให้ตรวจสอบก่อนว่า GPU สองสามอันดับแรกทำงานเต็มหรือไม่ จากนั้นดูเวอร์ชันเชิงปริมาณและช่วงความมั่นใจความเร็ว หากตำแหน่งแรกเป็นการถอนการติดตั้งบางส่วน หมายความว่ามีข้อได้เปรียบในด้านคุณภาพหรือความนิยมในการดาวน์โหลด แต่ไม่จำเป็นต้องเป็นตัวเลือกรายวันพร้อมประสบการณ์ที่ดีที่สุด ผู้ใช้สามารถสลับระหว่าง "คุณภาพมาก่อน สมดุล และบริบทแบบยาว" เพื่อสังเกตการเปลี่ยนแปลงอันดับ

สำหรับหน้า SEO เป้าหมายของบทความนี้ไม่ใช่เพื่อจดจำโมเดลทั้งหมดสำหรับผู้ใช้ แต่เพื่ออธิบายตรรกะในการตัดสินใจและนำผู้ใช้กลับมายังเครื่องมือที่แนะนำ หลังจากอธิบายแนวคิดเกี่ยวกับหน่วยความจำวิดีโอ การหาปริมาณ บริบท และโหมดการทำงานอย่างชัดเจนแล้ว ผู้ใช้สามารถป้อนฮาร์ดแวร์ของตนเองลงในเครื่องมือและผลลัพธ์ที่ได้รับจะน่าเชื่อถือ

รุ่นใหญ่ในพื้นที่ใดบ้างที่สามารถเรียกใช้งานด้วยหน่วยความจำกราฟิกที่แตกต่างกันได้