June 17, 2024Open Access

التسريع شبه المفقود لاستدلال نماذج اللغة الكبيرة ذات السياق الطويل باستخدام الانتباه المتفرق الهيكلي التكيفي

Key Points

Key points are not available for this paper at this time.

Abstract

تدعم نماذج اللغة الكبيرة (LLMs) الآن نوافذ سياق طويلة للغاية، لكن التعقيد التربيعي للانتباه التقليدي يؤدي إلى زمن وصول أول رمز (TTFT) طويل بشكل ملحوظ. تتطلب الأساليب الحالية لمواجهة هذا التعقيد تدريبًا إضافيًا أو تحسينًا دقيقًا، وغالبًا ما تضحي بدقة النموذج. في هذه الورقة، نقدم أولاً أساسيات نظرية وتجريبية لانتباه متفرق شبه مفقود. وجدنا أن التقاط أنماط متفرقة محددة للرؤوس بشكل ديناميكي أثناء التشغيل مع تكلفة منخفضة أمر حاسم. لمعالجة ذلك، نقترح SampleAttention، وهو انتباه متفرق هيكلي تكيفي وشبه مفقود. يستفيد SampleAttention من أنماط متفرقة ملحوظة حيث يولي اهتمامًا لنسبة ثابتة من الرموز المجاورة لالتقاط أنماط النافذة المحلية، ويستخدم نهج تصفية القيم المفتاحية والاسئلة الموجهة على مرحلتين، يختار بشكل تكيفي أقل مجموعة من القيم المفتاحية بتكلفة منخفضة لالتقاط أنماط أعمدة الشريط. تظهر التقييمات الشاملة أن SampleAttention يمكن أن يحل محل الانتباه التقليدي في نماذج اللغة الكبيرة الجاهزة تقريبًا بدون فقدان في الدقة، ويقلل من TTFT بنسبة تصل إلى 2.42 مقارنة بـ FlashAttention.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qianchao Zhu

Jiangfei Duan

Chang Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

التسريع شبه المفقود لاستدلال نماذج اللغة الكبيرة ذات السياق الطويل باستخدام الانتباه المتفرق الهيكلي التكيفي

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider