April 10, 2024Open Access

لا تترك أي سياق وراءك: محولات سياق لا نهائية فعالة مع الانتباه اللامتناهي

Key Points

Key points are not available for this paper at this time.

Abstract

يقدم هذا العمل طريقة فعالة لتوسيع نماذج اللغة الكبيرة (LLMs) المبنية على المحولات لتتعامل مع مدخلات ذات طول لا نهائي مع ذاكرة وحوسبة محدودة. أحد المكونات الرئيسية في نهجنا المقترح هو تقنية انتباه جديدة تسمى الانتباه اللامتناهي. يدمج الانتباه اللامتناهي ذاكرة تضغيطية في آلية الانتباه الأصلية ويجمع بين انتباه محلي مقنع وانتباه خطي طويل المدى في كتلة محول واحدة. نُظهر فعالية نهجنا على معايير نمذجة اللغة ذات السياق الطويل، واسترجاع كتل سياق طولها 1 مليون تسلسل، ومهام تلخيص كتب بطول 500 ألف مع نماذج LLMs بحجم 1 مليار و8 مليار. يقدم نهجنا معلمات ذاكرة محدودة صغيرة ويُمكّن من استدلال سريع وبث مباشر لنماذج LLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tsendsuren Munkhdalai

Manaal Faruqui

Siddharth Gopal

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

لا تترك أي سياق وراءك: محولات سياق لا نهائية فعالة مع الانتباه اللامتناهي

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider