April 14, 2024Open Access

TransformerFAM: الانتباه الرجعي هو الذاكرة العاملة

Key Points

Key points are not available for this paper at this time.

Abstract

بينما أحدثت المحولات ثورة في التعلم العميق، تعيق تعقيدات انتباهها التربيعية قدرتها على معالجة مدخلات طويلة بلا حدود. نقترح ذاكرة الانتباه الرجعي (FAM)، وهي بنية جديدة للمحول تستخدم حلقة رجعية لتمكين الشبكة من التركيز على تمثيلاتها الكامنة الخاصة بها. هذا التصميم يعزز ظهور الذاكرة العاملة داخل المحول، مما يسمح له بمعالجة تسلسلات طويلة إلى أجل غير مسمى. لا يتطلب TransformerFAM أوزانًا إضافية، مما يمكّن من دمجه بسلاسة مع النماذج المدربة مسبقًا. تُظهر تجاربنا أن TransformerFAM يحسّن أداء المحولات بشكل كبير في مهام السياق الطويل عبر أحجام نماذج مختلفة (1B، 8B، و24B). تعرض هذه النتائج الإمكانات لتمكين نماذج اللغة الكبيرة (LLMs) من معالجة تسلسلات طويلة بلا حدود.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Dongseong Hwang

Weiran Wang

Zhuoyuan Huo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

TransformerFAM: الانتباه الرجعي هو الذاكرة العاملة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider