सूक्ष्म दृश्य तर्क मल्टीमॉडल बड़े भाषा मॉडलों (MLLMs) के लिए एक मूल चुनौती बना हुआ है। हाल ही में प्रस्तुत ReasonMap ने इस अंतर को उजागर किया है, यह दिखाते हुए कि यहां तक कि उन्नत MLLMs भी ट्रांजिट मानचित्र जैसे संरचित और जानकारी-समृद्ध सेटिंग्स में स्थानिक तर्क के साथ संघर्ष करते हैं, जो एक स्पष्ट व्यावहारिक और वैज्ञानिक महत्व का कार्य है। हालांकि, इस प्रकार के कार्यों पर मानक रीइन्फोर्समेंट लर्निंग (RL) विरल पुरस्कारों और अस्थिर अनुकूलन द्वारा अवरुद्ध होती है। इसे संबोधित करने के लिए, हम पहले ReasonMap-Plus बनाते हैं, एक विस्तारित डेटा सेट जो विजुअल क्वेश्चन आंसरिंग (VQA) कार्यों के माध्यम से घने पुरस्कार संकेत प्रस्तुत करता है, जिससे सूक्ष्म दृश्य समझ कौशल के प्रभावी कोल्ड-स्टार्ट प्रशिक्षण की अनुमति मिलती है। इसके बाद, हम RewardMap प्रस्तावित करते हैं, एक बहु-चरण RL फ्रेमवर्क जिसे MLLMs की दृश्य समझ और तर्क क्षमता दोनों को सुधारने के लिए डिज़ाइन किया गया है। RewardMap दो मुख्य डिजाइनों को सम्मिलित करता है। पहला, हम एक कठिनाई-जानकार पुरस्कार डिजाइन प्रस्तुत करते हैं जो विवरण पुरस्कारों को शामिल करता है, सीधे विरल पुरस्कारों से निपटता है जबकि समृद्ध निगरानी प्रदान करता है। दूसरा, हम एक बहु-चरण RL योजना प्रस्तावित करते हैं जो सरल धारणा से जटिल तर्क कार्यों तक प्रशिक्षण को बूटस्ट्रैप करती है, जो पारंपरिक सुपरवाइज्ड फाइन-ट्यूनिंग (SFT) की तुलना में एक अधिक प्रभावी कोल्ड-स्टार्ट रणनीति प्रदान करती है। ReasonMap और ReasonMap-Plus पर प्रयोगों से पता चलता है कि RewardMap का प्रत्येक घटक सुसंगत प्रदर्शन वृद्धि में योगदान देता है, जबकि उनका संयोजन सर्वोत्तम परिणाम देता है। इसके अलावा, RewardMap के साथ प्रशिक्षित मॉडल ने 6 बेंचमार्कों में औसतन 3.47% सुधार प्राप्त किया, जिनमें स्थानिक तर्क, सूक्ष्म दृश्य तर्क और ट्रांजिट मानचित्रों के परे सामान्य कार्य शामिल हैं, जो बेहतर दृश्य समझ और तर्क क्षमताओं को दर्शाता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Siyi Feng
Kaiwen Tuo
Hung Viet Pham
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e7ba40ccde5f1021f64c6c — DOI: https://doi.org/10.48550/arxiv.2510.02240
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: