June 5, 2024Open Access

كيف يحسن تقليص الأوزان الاستدلال في نماذج اللغة

Key Points

Key points are not available for this paper at this time.

Abstract

بالإضافة إلى القدرة على توليد نصوص سلسة بمختلف اللغات، نجحت نماذج اللغة الكبيرة في المهام التي تتضمن أشكالًا أساسية من "الاستدلال" المنطقي عبر سياقها. وجدت الأبحاث الأخيرة أن إزالة بعض المكونات المختارة من مصفوفات الأوزان في النماذج المدربة مسبقًا يمكن أن تحسن قدرات الاستدلال هذه. نحن نحقق في هذه الظاهرة بشكل أعمق من خلال دراسة كيفية تخزين بعض الترابطات العالمية عادةً في مكونات وزن محددة أو كتل Transformer معينة، لا سيما طبقات التغذية الأمامية. قد تضر هذه الترابطات بالتنبؤات في مهام الاستدلال، وبالتالي فإن إزالة المكونات المقابلة يمكن أن تحسن الأداء. نحلل كيف ينشأ هذا أثناء التدريب، تجربياً ونظرياً، على Transformer ذا طبقتين مدرب على مهمة استدلال أساسية مع ضوضاء، ونموذج ذاكرة ارتباطية تصميمة، وعلى عائلة نماذج Pythia المدربة مسبقًا والمختبرة على مهام استدلال بسيطة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lei Chen

Joan Bruna

Alberto Bietti

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

كيف يحسن تقليص الأوزان الاستدلال في نماذج اللغة

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider