June 17, 2024Open Access

الانتباه عبر الطبقات المتجاوزة: جسر الفجوة بين التبعيات المجردة والمفصلة في المحولات

Key Points

Key points are not available for this paper at this time.

Abstract

لقد حقق هيكل المحول تقدمًا كبيرًا في التعلم العميق، خاصة في معالجة اللغة الطبيعية، من خلال إدارة التبعيات طويلة المدى بفعالية. ومع ذلك، مع تزايد الحاجة لفهم العلاقات المعقدة، يصبح تحسين هيكل المحول أمرًا حرجًا. تقدم هذه الورقة آلية الانتباه عبر الطبقات المتجاوزة (SLA) لتحسين نماذج المحول بتمكين الانتباه المباشر بين الطبقات غير المتجاورة. تحسن هذه الطريقة قدرة النموذج على التقاط التبعيات بين الميزات المجردة عالية المستوى والتفاصيل منخفضة المستوى. من خلال تسهيل الانتباه المباشر بين هذه المستويات المتنوعة من الميزات، تتغلب طريقتنا على القيود المفروضة على المحولات الحالية، التي غالبًا ما تعتمد على الانتباه داخل الطبقة غير الأمثل. يعمل تنفيذنا على توسيع وظيفة المحول بتمكين الاستعلامات في طبقة معينة من التفاعل مع المفاتيح والقيم من كل من الطبقة الحالية وطبقة سابقة واحدة، مما يعزز تنوع الانتباه متعدد الرؤوس دون عبء حسابي إضافي. تظهر التجارب المكثفة أن نموذج المحول المعزز لدينا يحقق أداءً متفوقًا في مهام نمذجة اللغة، مما يبرز فعالية آلية الانتباه عبر الطبقات المتجاوزة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qian Chen

Wen Wang

Qinglin Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

الانتباه عبر الطبقات المتجاوزة: جسر الفجوة بين التبعيات المجردة والمفصلة في المحولات

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider