الإصدارات الكبيرة للأسلوب O1/R1 من نماذج التفكير الكبيرة (LRMs) تشير إلى قفزة كبيرة مقارنة بالنماذج اللغوية الكبيرة التقليدية التي تتبع التعليمات. من خلال تطبيق التدرج الزمني أثناء الاختبار لتوليد مسارات تفكير ممتدة، تحقق العديد من الأرقام القياسية في مجموعة واسعة من مهام التفكير المعقدة. ومع ذلك، تظهر دراسات حديثة أن LRMs معرضة للمعاناة من الإفراط في التفكير – الميل إلى تعقيد المشاكل البسيطة بشكل مفرط، مما يؤدي إلى تبديل استراتيجيات مفرط ومسارات تفكير طويلة ومعقدة تعيق سهولة تفسيرها. للتخفيف من هذه المشكلة، أجرينا تحقيقاً منهجياً في كفاءة التفكير لمجموعة واسعة من LRMs وكشفنا عن معضلة شائعة: صعوبة الموازنة بين أهداف التوليد المتعددة مثل الصحة والإيجاز. بناءً على هذا الاكتشاف، نقترح طريقة تدرج أثناء الاختبار، EDIT (اقتطاع الاستدلال الديناميكي الفعال)، التي توجه LRMs بكفاءة لتحديد أقصر مسارات تفكير صحيحة أثناء الاختبار. تستخدم EDIT التوليد الموجه بالقيد مع تتبع مشترك لطول التوليد وتوزيعات الإجابات تحت قيود متغيرة، مما يسمح لها باختيار الردود التي تحقق توازناً مثالياً بين الإيجاز والصحة. تظهر تجارب موسعة عبر نماذج ومجموعات بيانات متنوعة أن EDIT تعزز بشكل كبير كفاءة التفكير، منتجة مخرجات مضغوطة ومفيدة تحسن من قابلية القراءة وتجربة المستخدم.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wei Han
Geng Zhan
Sicheng Yu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس هان وآخرون (Sun,) هذا السؤال.
www.synapsesocial.com/papers/68ebffcfdef9fcb308ff2667 — DOI: https://doi.org/10.48550/arxiv.2509.06174