Key points are not available for this paper at this time.
أصبحت المحولات المعتمدة على الانتباه الهندسة المعمارية القياسية في العديد من مجالات التعلم العميق، ويرجع ذلك أساساً إلى قدرتها على نمذجة التبعيات بعيدة المدى والتعامل مع تسلسلات إدخال ذات أطوال متغيرة. ومع ذلك، فإن آلية الانتباه وتعقيدها التربيعي تُشكّل عنق زجاجة هامًا في بنية المحول. هذا الخوارزم يعمل في اتجاه واحد فقط في وحدة فك التشفير ويتقارب إلى نمط ثابت في النماذج التي تعتمد فقط على وحدة فك التشفير والمفرطة في المعلمات. أتعامل مع هذه المشكلة من خلال تطوير دالة توليدية كبديل للانتباه أو التنشيط. لا تزال تحافظ على الطابع الذاتي التتابعي من خلال مقارنة كل رمز بالرمز السابق له. في بيئة الاختبار مع nanoGPT، ينتج عن ذلك خسارة أقل مع وجود نموذج أصغر. تنخفض الخسارة أكثر عند دمج متجه سياق متوسط. يُوزع هذا المفهوم لاستبدال الانتباه تحت رخصة GNU AGPL v3 على https://gitlab.com/Bachstelze/causalgeneration.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kalle Hilsenbek
Building similarity graph...
Analyzing shared references across papers
Loading...
درس كالي هيلسينبيك (Sun,) هذا السؤال.
www.synapsesocial.com/papers/68e64883b6db6435875d9e17 — DOI: https://doi.org/10.48550/arxiv.2406.10906
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: