What type of study is this?

This is a Experimental Study study.

October 16, 2025Open Access

توسيع نطاق تدريب نماذج اللغة الكبيرة مع منهجية المفردات

Key Points

يعزز تعلم منهج المفردات كفاءة التدريب المسبق وتوسيع النطاق في نماذج اللغة.
تشجع الطريقة اكتسابًا تكيّفيًا للمفردات يعكس تعلم اللغة البشري، مما يحسّن تعلم التمثيلات.
تشير التجارب إلى أن التجزئة الديناميكية تزيد كفاءة التوسيع وتحسّن أداء النموذج.
يفصل تخصيص الحساب الأمثل بين السياقات المتوقعة والمعقدة، مما يمكّن من نتائج تعلم أفضل.

Abstract

تعتمد نماذج اللغة الحديثة على مفردات ثابتة تُحدد قبل التدريب المسبق، على النقيض من اكتساب المفردات التكيفي الذي لوحظ في تعلم اللغة البشري. لسد هذه الفجوة، نقدم تعلم منهج المفردات، وهو نهج يُحسن كفاءة التدريب المسبق بتحسينات تتناسب لوغاريتميًا مع حجم المفردات. تتناوب طريقتنا بين توسيع المفردات الموجه بالانتروبيا وتحسين النموذج، مما يمكّن النماذج من تعلم تمثيلات قابلة للنقل عبر دقة تجزئة متنوّعة. يؤدي هذا النهج طبيعيًا إلى نمط تخصيص حسابي أمثل: تلتقط الرموز الأطول المحتوى المتوقع، في حين تركز الرموز الأقصر على سياقات أكثر تعقيدًا وصعوبة في التنبؤ. تظهر التجارب على نماذج GPT صغيرة الحجم تحسنًا في كفاءة التوسيع، مما يعزز فعالية التجزئة الديناميكية. نشارك رمزنا لدعم البحث المستقبلي ونخطط لتوسيع تجاربنا إلى نماذج أكبر ومجالات متنوعة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fangyuan Yu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

توسيع نطاق تدريب نماذج اللغة الكبيرة مع منهجية المفردات

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider