Key points are not available for this paper at this time.
نحن نعزز نماذج اللغة المُعلّقة ذاتيا من خلال التكيّف على أجزاء من الوثائق المسترجعة من مجموعة كبيرة، بناءً على التشابه المحلي مع الرموز السابقة. باستخدام قاعدة بيانات تحتوي على 2 تريليون رمز، يحصل نموذج التحويل المحسّن بالاسترجاع (RETRO) على أداء مماثل لـ GPT-3 و Jurassic-1 على مجموعة Pile، رغم استخدامه لعدد معلمات أقل بمقدار 25 مرة. بعد ضبطه بدقة، ينقل أداء RETRO إلى مهام مكثفة المعرفة مثل الإجابة على الأسئلة. يجمع RETRO بين مسترجع Bert مجمّد، ومشفّر قابل للتمايز، وآلية انتباه متقاطع مجزأة لتوقع الرموز بناءً على كمية بيانات أكبر بمقدار مرتبة من حيث الحجم مقارنةً بما يُستهلك عادةً أثناء التدريب. ندرب RETRO عادة من البداية، ومع ذلك يمكننا أيضًا تعديل مُحولات مدربة مسبقًا بسرعة باستخدام الاسترجاع وتحقيق أداء جيد. يفتح عملنا آفاقًا جديدة لتحسين نماذج اللغة من خلال ذاكرة صريحة على نطاق غير مسبوق.
Building similarity graph...
Analyzing shared references across papers
Loading...
Sebastian Borgeaud
Arthur Mensch
Jordan Hoffmann
Building similarity graph...
Analyzing shared references across papers
Loading...
درس بورغو وآخرون (الأربعاء،) هذا السؤال.
www.synapsesocial.com/papers/69dcc873a5c75be4cfe54479 — DOI: https://doi.org/10.48550/arxiv.2112.04426