Key points are not available for this paper at this time.
بالإضافة إلى القدرة على توليد نصوص سلسة بمختلف اللغات، نجحت نماذج اللغة الكبيرة في المهام التي تتضمن أشكالًا أساسية من "الاستدلال" المنطقي عبر سياقها. وجدت الأبحاث الأخيرة أن إزالة بعض المكونات المختارة من مصفوفات الأوزان في النماذج المدربة مسبقًا يمكن أن تحسن قدرات الاستدلال هذه. نحن نحقق في هذه الظاهرة بشكل أعمق من خلال دراسة كيفية تخزين بعض الترابطات العالمية عادةً في مكونات وزن محددة أو كتل Transformer معينة، لا سيما طبقات التغذية الأمامية. قد تضر هذه الترابطات بالتنبؤات في مهام الاستدلال، وبالتالي فإن إزالة المكونات المقابلة يمكن أن تحسن الأداء. نحلل كيف ينشأ هذا أثناء التدريب، تجربياً ونظرياً، على Transformer ذا طبقتين مدرب على مهمة استدلال أساسية مع ضوضاء، ونموذج ذاكرة ارتباطية تصميمة، وعلى عائلة نماذج Pythia المدربة مسبقًا والمختبرة على مهام استدلال بسيطة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lei Chen
Joan Bruna
Alberto Bietti
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Chen et al. (الأربعاء) هذا السؤال.
www.synapsesocial.com/papers/68e660e5b6db6435875ef44c — DOI: https://doi.org/10.48550/arxiv.2406.03068
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: