March 17, 2024Open Access

FastDecode: تقديم نماذج اللغة الكبيرة (LLM) بكفاءة عالية على وحدات معالجة الرسومات باستخدام خطوط أنابيب غير متجانسة

Key Points

Key points are not available for this paper at this time.

Abstract

تكلفة تقديم نماذج اللغة الكبيرة (LLM) مرتفعة، لكن وحدات معالجة الرسومات (GPU) المكلفة والنادرة تكون غير فعالة عندما تُنتج الرموز بشكل تسلسلي، إلا إذا تم تكبير حجم الدُفعة من التتابعات. ومع ذلك، حجم الدُفعة محدود ببعض النتائج الوسيطة التي تُعاد استخدامها باستمرار، وهي ذاكرة KV-Cache. فهي تحتل مساحة كبيرة من الذاكرة مما يمنع استيعاب المزيد من التتابعات في وحدة المعالجة الرسومية في نفس الوقت. بينما يمكن نقلها إلى ذاكرة المضيف، يعتبر عرض نطاق الاتصال بين المعالج المركزي ووحدة معالجة الرسومات عائقًا لا مفر منه. لقد وجدنا طريقة لتقسيم نماذج المحولات إلى جزأين بخصائص مختلفة، أحدهما يشمل العمليات المرتبطة بالوصول إلى KV-Cache المرتبطة بالذاكرة. الفكرة الأساسية لدينا هي أن السعة المجمعة للذاكرة، عرض النطاق الترددي، وقوة الحوسبة للمعالجات المركزية عبر عدة عقد تشكل خيارًا فعالًا لمعالجة هذا الجزء. يأتي التحسن في الأداء من تقليل حمل نقل البيانات وزيادة إنتاجية وحدة معالجة الرسومات لمعالجة الجزء الآخر من النموذج. علاوة على ذلك، نعالج تحديات الكفاءة الناتجة عن التغاير الزمني وبين الأجهزة باستخدام تقنيات الجدولة ونمذجة الأداء. تظهر نتائج التقييم أن نظامنا يحقق إنتاجية تصل إلى 1.88x - 5.04x مقارنة بـ vLLM عند تقديم نماذج LLM الحديثة باستخدام نفس وحدة معالجة الرسومات.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiaao He

Jidong Zhai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

FastDecode: تقديم نماذج اللغة الكبيرة (LLM) بكفاءة عالية على وحدات معالجة الرسومات باستخدام خطوط أنابيب غير متجانسة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider