भाषा-निर्देशित पर्यवेक्षण, जो एक प्रीट्रेन्ड लैंग्वेज मॉडल (PLM) से स्थिर सेमांटिक लक्ष्य का उपयोग करता है, विज़ुअल सतत शिक्षण (CL) के लिए एक आशाजनक दृष्टिकोण के रूप में उभरा है। हालांकि, एकल लक्ष्य पर निर्भर होने से दो महत्वपूर्ण सीमाएं उत्पन्न होती हैं: 1) सेमांटिक अस्पष्टता, जहाँ एक बहुअर्थी श्रेणी नाम के कारण विरोधाभासी दृश्य प्रतिनिधित्व होते हैं, और 2) वर्ग के भीतर दृश्य विविधता, जहाँ एकल प्रोटोटाइप वर्ग के विविध दृश्य रूपों को पकड़ने में असमर्थ होता है। इस उद्देश्य के लिए, हम MuproCL प्रस्तावित करते हैं, एक नवीन ढांचा जो एकल लक्ष्य को कई, संदर्भ-सचेत प्रोटोटाइप से स्थानापन्न करता है। विशेष रूप से, हम श्रेणी अस्पष्टता को सुलझाने और दृश्य-मोड विस्तार करने के लिए एक हल्के LLM एजेंट का उपयोग करते हैं ताकि मजबूत सेमांटिक प्रोटोटाइप सेट उत्पन्न किया जा सके। एक LogSumExp एकत्रीकरण तंत्र विज़न मॉडल को दी गई छवि के लिए सबसे उपयुक्त प्रोटोटाइप के साथ अनुकूल रूप से संरेखित होने की अनुमति देता है। विभिन्न CL बेसलाइन में व्यापक प्रयोगों से पता चलता है कि MuproCL लगातार प्रदर्शन और स्थिरता को बढ़ाता है, जिससे भाषा-निर्देशित सतत शिक्षण के लिए एक अधिक प्रभावी रास्ता स्थापित होता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiwei Liu
Yulong Li
Yichen Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Fri,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e040eda99c246f578b33c8 — DOI: https://doi.org/10.48550/arxiv.2509.16011