Key points are not available for this paper at this time.
بينما أحدثت المحولات ثورة في التعلم العميق، تعيق تعقيدات انتباهها التربيعية قدرتها على معالجة مدخلات طويلة بلا حدود. نقترح ذاكرة الانتباه الرجعي (FAM)، وهي بنية جديدة للمحول تستخدم حلقة رجعية لتمكين الشبكة من التركيز على تمثيلاتها الكامنة الخاصة بها. هذا التصميم يعزز ظهور الذاكرة العاملة داخل المحول، مما يسمح له بمعالجة تسلسلات طويلة إلى أجل غير مسمى. لا يتطلب TransformerFAM أوزانًا إضافية، مما يمكّن من دمجه بسلاسة مع النماذج المدربة مسبقًا. تُظهر تجاربنا أن TransformerFAM يحسّن أداء المحولات بشكل كبير في مهام السياق الطويل عبر أحجام نماذج مختلفة (1B، 8B، و24B). تعرض هذه النتائج الإمكانات لتمكين نماذج اللغة الكبيرة (LLMs) من معالجة تسلسلات طويلة بلا حدود.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dongseong Hwang
Weiran Wang
Zhuoyuan Huo
Building similarity graph...
Analyzing shared references across papers
Loading...
درس هوانغ وآخرون (Sun,) هذا السؤال.
www.synapsesocial.com/papers/68e6f3b2b6db64358766e8ff — DOI: https://doi.org/10.48550/arxiv.2404.09173
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: