تعتمد نماذج اللغة الحديثة على مفردات ثابتة تُحدد قبل التدريب المسبق، على النقيض من اكتساب المفردات التكيفي الذي لوحظ في تعلم اللغة البشري. لسد هذه الفجوة، نقدم تعلم منهج المفردات، وهو نهج يُحسن كفاءة التدريب المسبق بتحسينات تتناسب لوغاريتميًا مع حجم المفردات. تتناوب طريقتنا بين توسيع المفردات الموجه بالانتروبيا وتحسين النموذج، مما يمكّن النماذج من تعلم تمثيلات قابلة للنقل عبر دقة تجزئة متنوّعة. يؤدي هذا النهج طبيعيًا إلى نمط تخصيص حسابي أمثل: تلتقط الرموز الأطول المحتوى المتوقع، في حين تركز الرموز الأقصر على سياقات أكثر تعقيدًا وصعوبة في التنبؤ. تظهر التجارب على نماذج GPT صغيرة الحجم تحسنًا في كفاءة التوسيع، مما يعزز فعالية التجزئة الديناميكية. نشارك رمزنا لدعم البحث المستقبلي ونخطط لتوسيع تجاربنا إلى نماذج أكبر ومجالات متنوعة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fangyuan Yu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس فانغيوان يو (الثلاثاء) هذا السؤال.
www.synapsesocial.com/papers/68f0d5eb105731330a2b2097 — DOI: https://doi.org/10.48550/arxiv.2502.17910
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: