Key points are not available for this paper at this time.
تكلفة تقديم نماذج اللغة الكبيرة (LLM) مرتفعة، لكن وحدات معالجة الرسومات (GPU) المكلفة والنادرة تكون غير فعالة عندما تُنتج الرموز بشكل تسلسلي، إلا إذا تم تكبير حجم الدُفعة من التتابعات. ومع ذلك، حجم الدُفعة محدود ببعض النتائج الوسيطة التي تُعاد استخدامها باستمرار، وهي ذاكرة KV-Cache. فهي تحتل مساحة كبيرة من الذاكرة مما يمنع استيعاب المزيد من التتابعات في وحدة المعالجة الرسومية في نفس الوقت. بينما يمكن نقلها إلى ذاكرة المضيف، يعتبر عرض نطاق الاتصال بين المعالج المركزي ووحدة معالجة الرسومات عائقًا لا مفر منه. لقد وجدنا طريقة لتقسيم نماذج المحولات إلى جزأين بخصائص مختلفة، أحدهما يشمل العمليات المرتبطة بالوصول إلى KV-Cache المرتبطة بالذاكرة. الفكرة الأساسية لدينا هي أن السعة المجمعة للذاكرة، عرض النطاق الترددي، وقوة الحوسبة للمعالجات المركزية عبر عدة عقد تشكل خيارًا فعالًا لمعالجة هذا الجزء. يأتي التحسن في الأداء من تقليل حمل نقل البيانات وزيادة إنتاجية وحدة معالجة الرسومات لمعالجة الجزء الآخر من النموذج. علاوة على ذلك، نعالج تحديات الكفاءة الناتجة عن التغاير الزمني وبين الأجهزة باستخدام تقنيات الجدولة ونمذجة الأداء. تظهر نتائج التقييم أن نظامنا يحقق إنتاجية تصل إلى 1.88x - 5.04x مقارنة بـ vLLM عند تقديم نماذج LLM الحديثة باستخدام نفس وحدة معالجة الرسومات.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiaao He
Jidong Zhai
Building similarity graph...
Analyzing shared references across papers
Loading...
قام He وآخرون (Sun,) بدراسة هذا السؤال.
www.synapsesocial.com/papers/68e73a87b6db6435876b4394 — DOI: https://doi.org/10.48550/arxiv.2403.11421
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: