February 26, 2024Open Access

نمذجة اللغة بسياق طويل مع الترميز المتوازي للسياق

Key Points

Key points are not available for this paper at this time.

Abstract

توسيع نماذج اللغة الكبيرة (LLMs) لمعالجة مدخلات أطول أمر بالغ الأهمية للعديد من التطبيقات. ومع ذلك، فإن التكلفة الحسابية الكبيرة للمحولين، إلى جانب تعميم الترميز الموضعي المحدود، تقيد حجم نافذة السياق الخاصة بها. نقدم توسيع السياق مع الترميز المتوازي (CEPE)، وهو إطار يمكن تطبيقه على أي نماذج LLMs القائمة على الديكودر فقط لتوسيع نافذة السياق الخاصة بها. يتبنى CEPE مشفراً صغيراً لمعالجة المدخلات الطويلة قطعة بقطعة، ويُمكّن الديكودر المجمد من الاستفادة من سياقات إضافية عبر الانتباه المتقاطع. CEPE فعال وقابل للتعميم ومتعدد الاستخدامات: تم تدريبه على مستندات بحجم 8K token، يقوم CEPE بتوسيع نافذة السياق لـ LLAMA-2 إلى 128K tokens، مما يوفر معدل إنتاج أعلى بعشرة أضعاف مع استخدام ذاكرة يساوي سدس الاستخدام الأصلي فقط. يوفر CEPE أداءً قويًا في نمذجة اللغة والتعلم السياقي. كما يتفوق CEPE في التطبيقات المعززة بالاسترجاع، بينما تتدهور نماذج السياق الطويل القائمة مع السياقات المسترجعة. كما نقدم متغيرًا من CEPE يمكنه توسيع نافذة السياق للنماذج المحسنة بالتعليمات باستخدام بيانات غير معنونة فقط، ونبرز فعاليته على LLAMA-2-CHAT، مما يؤدي إلى نموذج قوي في اتباع التعليمات يمكنه الاستفادة من سياق طويل جدًا في المهام التالية.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

H. W. Yen

Tianyu Gao

Danqi Chen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

نمذجة اللغة بسياق طويل مع الترميز المتوازي للسياق

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider