June 22, 2024Open Access

ما الأهمية في المحولات؟ ليست كل الانتباه مطلوبًا

Key Points

Key points are not available for this paper at this time.

Abstract

أظهر توسيع نماذج اللغة الكبيرة المستندة إلى المحولات (LLMs) أداءً واعدًا عبر مهام مختلفة. ومع ذلك، يؤدي هذا التوسيع أيضًا إلى إدخال هياكل زائدة، مما يشكل تحديات للتطبيق في العالم الحقيقي. على الرغم من وجود بعض الاعتراف بالزائدة في LLMs، إلا أن تباين الزائدة عبر الهياكل المختلفة، مثل طبقات MLP والانتباه، لم يُدرس بشكل كافٍ. في هذا العمل، نحقق في تباين الزائدة عبر الوحدات المختلفة داخل المحولات، بما في ذلك الكتل، وطبقات MLP، والانتباه، باستخدام مقياس قائم على التشابه. يعتمد هذا المقياس على فرضية أن الهياكل الزائدة تنتج مخرجات متشابهة للغاية مع مدخلاتها. ومن المدهش أنه بينما تعتبر طبقات الانتباه ضرورية للمحولات وتميزها عن المعماريات السائدة الأخرى، وجدنا أن نسبة كبيرة من طبقات الانتباه تُظهر تشابهًا مفرطًا للغاية ويمكن تقليمها بأمان دون تقليل الأداء، مما يؤدي إلى تقليل تكلفة الذاكرة والحساب. بالإضافة إلى ذلك، نقترح طريقة تقوم بإسقاط طبقات الانتباه والـ MLP معًا، مما يحقق أداءً محسّنًا ونسب إسقاط أعلى. تظهر تجاربنا المكثفة فعالية طرقنا؛ على سبيل المثال، يحافظ نموذج Llama-3-70B على أداء مماثل حتى بعد تقليم نصف طبقات الانتباه. تقدم نتائجنا أفكارًا قيمة لتصميم بنية الشبكات المستقبلية. سيتم إصدار الشفرة على: https://github.com/Shwai-He/LLM-Drop.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shwai He

Guoheng Sun

Zheyu Shen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ما الأهمية في المحولات؟ ليست كل الانتباه مطلوبًا

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider