June 11, 2024Open Access

ضغط فعّال لرؤوس KV لنماذج اللغة الكبيرة

Key Points

Key points are not available for this paper at this time.

Abstract

أدى ظهور نماذج اللغة الكبيرة المدربة مسبقًا (LLMs) إلى ثورة في مختلف مهام معالجة اللغة الطبيعية. تعتمد هذه النماذج بشكل رئيسي على آلية فك التشفير التوليدية التي تستخدم مخازن المفتاح-القيمة (KV) لإلغاء الحسابات الزائدة للرموز السابقة. ومع ذلك، مع زيادة أطوال السياق وأحجام الدُفعات، يصبح التوسع الخطي في البصمة الذاكرية لمخازن KV عائقًا رئيسيًا في نشر LLM، مما يقلل سرعة التوليد بشكل كبير. للتخفيف من هذه المشكلة، تم تطوير تقنيات سابقة مثل انتباه الاستعلام المتعدد (MQA) وانتباه الاستعلام المجموعي (GQA) لتقليل رؤوس KV وتسريع الاستنتاج بدقة مشابهة لعملية الانتباه متعدد الرؤوس (MHA). بالرغم من فعاليتها، غالبًا ما تتجاهل الاستراتيجيات الحالية لضغط MHA الخصائص الجوهرية لمخازن KV. في هذا العمل، نستكشف الخصائص منخفضة الرتبة لمخازن KV ونقترح نهجًا جديدًا لضغط رؤوس KV. على وجه الخصوص، نقوم بتحسين دقيق لتحويل MHA إلى GQA لتقليل خطأ الضغط، ولضمان التوافق مع تضمينات المواقع الدوارة (RoPE)، نقدم أيضًا استراتيجيات متخصصة لمخازن المفاتيح مع RoPE. نظهر أن طريقتنا يمكنها ضغط نصف أو حتى ثلاثة أرباع رؤوس KV مع الحفاظ على أداء مشابه لـ LLMs الأصلية، مما يفتح طريقًا واعدًا لنشر أكثر كفاءة لـ LLMs في بيئات ذات موارد محدودة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hao Yu

Zelan Yang

Shen Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ضغط فعّال لرؤوس KV لنماذج اللغة الكبيرة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider