Key points are not available for this paper at this time.
نماذج خليط من الخبراء (MoE) تسهل التوسع بكفاءة؛ ومع ذلك، فإن تدريب شبكة التوجيه يطرح تحدي تحسين هدف غير قابل للتفريق ومتقطع. مؤخراً، تم اقتراح بنية MoE قابلة للتفريق بالكامل، SMEAR (Muqeeth et al., 2023)، التي تدمج الخبراء بشكل ناعم في فضاء المعاملات؛ ومع ذلك، فاعليتها أظهرت فقط في التخصيص الدقيق اللاحق لمهام التصنيف. في هذه الورقة، نقدم لوري، وهو أول نهج يقوم بتوسيع مثل هذه البنى لتدريب نماذج اللغة ذاتية الارتجاع مسبقاً. يقدم لوري تقنيتين رئيسيتين: (1) استراتيجية توجيه شرائح سببية تحقق كفاءة عالية في عمليات دمج الخبراء مع الحفاظ على طبيعة النماذج اللغوية ذاتية الارتجاع؛ (2) طريقة جمع بيانات تعتمد على التشابه تشجع تخصص الخبراء من خلال تجميع مستندات مشابهة في حالات التدريب. قمنا بتدريب سلسلة من نماذج لوري على 150 مليار رمز من البداية، مع ما يصل إلى 32 خبيراً و30 مليار (1.5 مليار نشط) معامل. تظهر النتائج التجريبية مكاسب أداء كبيرة مقارنة بنماذج كثيفة متساوية المعاملات في كل من التعقيد (+13.9%) ومجموعة متنوعة من المهام اللاحقة (+1.5%-11.1%). بالرغم من توجيه على مستوى الشرائح، تحقق نماذج لوري أداء تنافسي مقارنة بنماذج MoE المتطورة مع توجيه على مستوى الرموز. نُظهر أيضًا أن الخبراء المدربون في لوري يلتقطون تخصيصًا على مستوى المجال دون إشراف. يبرز عملنا إمكانيات بنى MoE القابلة للتفريق بالكامل لتدريب نماذج اللغة المسبق ويدعو لأبحاث مستقبلية في هذا المجال.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zexuan Zhong
Mengzhou Xia
Danqi Chen
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Zhong وآخرون (Sun,) هذا السؤال.
www.synapsesocial.com/papers/68e6b7f0b6db643587638d12 — DOI: https://doi.org/10.48550/arxiv.2405.03133