Key points are not available for this paper at this time.
يمكن لنماذج اللغة المختلطة الخبراء (MoE) تقليل تكاليف الحوسبة بمعدل 2-4 مرات مقارنة بالنماذج الكثيفة دون التضحية بالأداء، مما يجعلها أكثر كفاءة في السيناريوهات المحدودة الحوسبة. ومع ذلك، تتطلب نماذج MoE عمومًا 2-4 أضعاف المعلمات لتحقيق أداء مماثل للنموذج الكثيف، مما يؤدي إلى متطلبات ذاكرة GPU أكبر ويجعل نماذج MoE أقل كفاءة في السيناريوهات المحدودة بعمليات الإدخال/الإخراج مثل التوليد التلقائي. في هذا العمل، نقترح إطار عمل هجيني يجمع بين التدريب الكثيف والاستدلال المتفرق لنماذج MoE (DS-MoE) الذي يحقق كفاءة عالية في الحوسبة والمعلمات من خلال استخدام الحوسبة الكثيفة عبر جميع الخبراء أثناء التدريب والحوسبة المتفرقة أثناء الاستدلال. أظهرت تجاربنا في تدريب نماذج اللغة الكبيرة أن نماذج DS-MoE أكثر كفاءة من حيث المعلمات مقارنة بنماذج MoE المتفرقة القياسية ومتساوية مع النماذج الكثيفة من حيث الحجم الكلي للمعلمات والأداء مع تكلفة حسابية أقل (تفعيل 30-40% من معلمات النموذج). تظهر اختبارات الأداء باستخدام vLLM أن نموذج DS-MoE-6B يعمل أسرع حتى 1.86 مرة من نماذج كثيفة مماثلة مثل Mistral-7B، وأسرع بين 1.50 و1.71 مرة من نماذج MoE قابلة للمقارنة، مثل DeepSeekMoE-16B و Qwen1.5-MoE-A2.7B.
Building similarity graph...
Analyzing shared references across papers
Loading...
Bowen Pan
Yikang Shen
Haokun Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس بان وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68e700dcb6db64358767a675 — DOI: https://doi.org/10.48550/arxiv.2404.05567
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: