Key points are not available for this paper at this time.
أظهرت التطورات الحديثة في نماذج اللغة قدرتها على حل مسائل الاستدلال الرياضي، محققة دقة قريبة من الكمال في معايير الرياضيات على مستوى المرحلة الابتدائية مثل GSM8K. في هذه الورقة، ندرس بشكل رسمي كيفية حل نماذج اللغة لهذه المسائل. صممنا سلسلة من التجارب المحكمة للإجابة على عدة أسئلة أساسية: (1) هل يمكن لنماذج اللغة حقًا تطوير مهارات الاستدلال، أم أنها ببساطة تحفظ القوالب؟ (2) ما هي عملية الاستدلال الخفية (العقلية) للنموذج؟ (3) هل تحل النماذج مسائل الرياضيات باستخدام مهارات مماثلة للبشر أم مختلفة؟ (4) هل النماذج المدربة على مجموعات بيانات شبيهة بـ GSM8K تطور مهارات استدلال تتجاوز ما هو ضروري لحل مسائل GSM8K؟ (5) ما هي العملية العقلية التي تسبب ارتكاب النماذج لأخطاء في الاستدلال؟ (6) ما حجم أو عمق النموذج المطلوب لحل مسائل الرياضيات على مستوى GSM8K بفعالية؟ تكشف دراستنا العديد من الآليات الخفية التي تحل بها نماذج اللغة الأسئلة الرياضية، مقدمة رؤى تتجاوز الفهم الحالي لنماذج اللغة الكبيرة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ye Tian
Zicheng Xu
Yuanzhi Li
Building similarity graph...
Analyzing shared references across papers
Loading...
درس تيان وآخرون (Mon,) هذا السؤال.
www.synapsesocial.com/papers/68e5ea48b6db64358757f68f — DOI: https://doi.org/10.48550/arxiv.2407.20311
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: