Key points are not available for this paper at this time.
أظهر توسيع نماذج اللغة الكبيرة المستندة إلى المحولات (LLMs) أداءً واعدًا عبر مهام مختلفة. ومع ذلك، يؤدي هذا التوسيع أيضًا إلى إدخال هياكل زائدة، مما يشكل تحديات للتطبيق في العالم الحقيقي. على الرغم من وجود بعض الاعتراف بالزائدة في LLMs، إلا أن تباين الزائدة عبر الهياكل المختلفة، مثل طبقات MLP والانتباه، لم يُدرس بشكل كافٍ. في هذا العمل، نحقق في تباين الزائدة عبر الوحدات المختلفة داخل المحولات، بما في ذلك الكتل، وطبقات MLP، والانتباه، باستخدام مقياس قائم على التشابه. يعتمد هذا المقياس على فرضية أن الهياكل الزائدة تنتج مخرجات متشابهة للغاية مع مدخلاتها. ومن المدهش أنه بينما تعتبر طبقات الانتباه ضرورية للمحولات وتميزها عن المعماريات السائدة الأخرى، وجدنا أن نسبة كبيرة من طبقات الانتباه تُظهر تشابهًا مفرطًا للغاية ويمكن تقليمها بأمان دون تقليل الأداء، مما يؤدي إلى تقليل تكلفة الذاكرة والحساب. بالإضافة إلى ذلك، نقترح طريقة تقوم بإسقاط طبقات الانتباه والـ MLP معًا، مما يحقق أداءً محسّنًا ونسب إسقاط أعلى. تظهر تجاربنا المكثفة فعالية طرقنا؛ على سبيل المثال، يحافظ نموذج Llama-3-70B على أداء مماثل حتى بعد تقليم نصف طبقات الانتباه. تقدم نتائجنا أفكارًا قيمة لتصميم بنية الشبكات المستقبلية. سيتم إصدار الشفرة على: https://github.com/Shwai-He/LLM-Drop.
Building similarity graph...
Analyzing shared references across papers
Loading...
Shwai He
Guoheng Sun
Zheyu Shen
Building similarity graph...
Analyzing shared references across papers
Loading...
درس He وآخرون (Sat,) هذا السؤال.
www.synapsesocial.com/papers/68e63af7b6db6435875cd392 — DOI: https://doi.org/10.48550/arxiv.2406.15786
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: