June 16, 2024Open Access

كسر عنق الزجاجة في الانتباه

Key Points

Key points are not available for this paper at this time.

Abstract

أصبحت المحولات المعتمدة على الانتباه الهندسة المعمارية القياسية في العديد من مجالات التعلم العميق، ويرجع ذلك أساساً إلى قدرتها على نمذجة التبعيات بعيدة المدى والتعامل مع تسلسلات إدخال ذات أطوال متغيرة. ومع ذلك، فإن آلية الانتباه وتعقيدها التربيعي تُشكّل عنق زجاجة هامًا في بنية المحول. هذا الخوارزم يعمل في اتجاه واحد فقط في وحدة فك التشفير ويتقارب إلى نمط ثابت في النماذج التي تعتمد فقط على وحدة فك التشفير والمفرطة في المعلمات. أتعامل مع هذه المشكلة من خلال تطوير دالة توليدية كبديل للانتباه أو التنشيط. لا تزال تحافظ على الطابع الذاتي التتابعي من خلال مقارنة كل رمز بالرمز السابق له. في بيئة الاختبار مع nanoGPT، ينتج عن ذلك خسارة أقل مع وجود نموذج أصغر. تنخفض الخسارة أكثر عند دمج متجه سياق متوسط. يُوزع هذا المفهوم لاستبدال الانتباه تحت رخصة GNU AGPL v3 على https://gitlab.com/Bachstelze/causalgeneration.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kalle Hilsenbek

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

كسر عنق الزجاجة في الانتباه

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider