What type of study is this?

This is a Quantitative Study study.

October 9, 2025Open Access

RewardMap: मल्टी-स्टेज रीइन्फोर्समेंट लर्निंग के माध्यम से सूक्ष्म दृश्य तर्क में विरल पुरस्कारों से निपटना

Key Points

RewardMap के साथ प्रशिक्षित मॉडल 6 बेंचमार्कों में दृश्य समझ और तर्क में 3.47% की सुधार करते हैं।
कठिनाई-जानकार पुरस्कार डिज़ाइन विरल पुरस्कारों का समाधान करता है, RL फ्रेमवर्क में सीखने की प्रक्रिया को बेहतर बनाता है।
RewardMap की बहु-चरण पद्धति सरल धारणा से जटिल तर्क तक प्रशिक्षण स्थानांतरण करती है।
RewardMap के प्रत्येक घटक प्रदर्शन सुधार में योगदान देते हैं, जो सूक्ष्म दृश्य कार्यों में इसकी प्रभावशीलता को पुनः पुष्टि करते हैं।

Abstract

सूक्ष्म दृश्य तर्क मल्टीमॉडल बड़े भाषा मॉडलों (MLLMs) के लिए एक मूल चुनौती बना हुआ है। हाल ही में प्रस्तुत ReasonMap ने इस अंतर को उजागर किया है, यह दिखाते हुए कि यहां तक कि उन्नत MLLMs भी ट्रांजिट मानचित्र जैसे संरचित और जानकारी-समृद्ध सेटिंग्स में स्थानिक तर्क के साथ संघर्ष करते हैं, जो एक स्पष्ट व्यावहारिक और वैज्ञानिक महत्व का कार्य है। हालांकि, इस प्रकार के कार्यों पर मानक रीइन्फोर्समेंट लर्निंग (RL) विरल पुरस्कारों और अस्थिर अनुकूलन द्वारा अवरुद्ध होती है। इसे संबोधित करने के लिए, हम पहले ReasonMap-Plus बनाते हैं, एक विस्तारित डेटा सेट जो विजुअल क्वेश्चन आंसरिंग (VQA) कार्यों के माध्यम से घने पुरस्कार संकेत प्रस्तुत करता है, जिससे सूक्ष्म दृश्य समझ कौशल के प्रभावी कोल्ड-स्टार्ट प्रशिक्षण की अनुमति मिलती है। इसके बाद, हम RewardMap प्रस्तावित करते हैं, एक बहु-चरण RL फ्रेमवर्क जिसे MLLMs की दृश्य समझ और तर्क क्षमता दोनों को सुधारने के लिए डिज़ाइन किया गया है। RewardMap दो मुख्य डिजाइनों को सम्मिलित करता है। पहला, हम एक कठिनाई-जानकार पुरस्कार डिजाइन प्रस्तुत करते हैं जो विवरण पुरस्कारों को शामिल करता है, सीधे विरल पुरस्कारों से निपटता है जबकि समृद्ध निगरानी प्रदान करता है। दूसरा, हम एक बहु-चरण RL योजना प्रस्तावित करते हैं जो सरल धारणा से जटिल तर्क कार्यों तक प्रशिक्षण को बूटस्ट्रैप करती है, जो पारंपरिक सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) की तुलना में एक अधिक प्रभावी कोल्ड-स्टार्ट रणनीति प्रदान करती है। ReasonMap और ReasonMap-Plus पर प्रयोगों से पता चलता है कि RewardMap का प्रत्येक घटक सुसंगत प्रदर्शन वृद्धि में योगदान देता है, जबकि उनका संयोजन सर्वोत्तम परिणाम देता है। इसके अलावा, RewardMap के साथ प्रशिक्षित मॉडल ने 6 बेंचमार्कों में औसतन 3.47% सुधार प्राप्त किया, जिनमें स्थानिक तर्क, सूक्ष्म दृश्य तर्क और ट्रांजिट मानचित्रों के परे सामान्य कार्य शामिल हैं, जो बेहतर दृश्य समझ और तर्क क्षमताओं को दर्शाता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Siyi Feng

Kaiwen Tuo

Hung Viet Pham

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

RewardMap: मल्टी-स्टेज रीइन्फोर्समेंट लर्निंग के माध्यम से सूक्ष्म दृश्य तर्क में विरल पुरस्कारों से निपटना

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider