Key points are not available for this paper at this time.
أدى ظهور نماذج اللغة الكبيرة المدربة مسبقًا (LLMs) إلى ثورة في مختلف مهام معالجة اللغة الطبيعية. تعتمد هذه النماذج بشكل رئيسي على آلية فك التشفير التوليدية التي تستخدم مخازن المفتاح-القيمة (KV) لإلغاء الحسابات الزائدة للرموز السابقة. ومع ذلك، مع زيادة أطوال السياق وأحجام الدُفعات، يصبح التوسع الخطي في البصمة الذاكرية لمخازن KV عائقًا رئيسيًا في نشر LLM، مما يقلل سرعة التوليد بشكل كبير. للتخفيف من هذه المشكلة، تم تطوير تقنيات سابقة مثل انتباه الاستعلام المتعدد (MQA) وانتباه الاستعلام المجموعي (GQA) لتقليل رؤوس KV وتسريع الاستنتاج بدقة مشابهة لعملية الانتباه متعدد الرؤوس (MHA). بالرغم من فعاليتها، غالبًا ما تتجاهل الاستراتيجيات الحالية لضغط MHA الخصائص الجوهرية لمخازن KV. في هذا العمل، نستكشف الخصائص منخفضة الرتبة لمخازن KV ونقترح نهجًا جديدًا لضغط رؤوس KV. على وجه الخصوص، نقوم بتحسين دقيق لتحويل MHA إلى GQA لتقليل خطأ الضغط، ولضمان التوافق مع تضمينات المواقع الدوارة (RoPE)، نقدم أيضًا استراتيجيات متخصصة لمخازن المفاتيح مع RoPE. نظهر أن طريقتنا يمكنها ضغط نصف أو حتى ثلاثة أرباع رؤوس KV مع الحفاظ على أداء مشابه لـ LLMs الأصلية، مما يفتح طريقًا واعدًا لنشر أكثر كفاءة لـ LLMs في بيئات ذات موارد محدودة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Yu
Zelan Yang
Shen Li
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Yu وآخرون (Tue,) هذا السؤال.
www.synapsesocial.com/papers/68e65550b6db6435875e4943 — DOI: https://doi.org/10.48550/arxiv.2406.07056
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: