Key points are not available for this paper at this time.
बहु-मोडल बड़े भाषा मॉडलों (MLLMs) में प्रमुख घटक के रूप में, विज़ुअल एन्कोडर की क्षमता MLLM की विविध छवि सामग्री की समझ को बहुत प्रभावित करती है। हालांकि CLIP और DINOv2 में विज़न एन्कोडर्स जैसे कुछ बड़े पैमाने पर प्रीट्रेंड विज़न एन्कोडर्स ने आशाजनक प्रदर्शन दिया है, हमने पाया कि अभी भी कोई एकल विज़न एन्कोडर नहीं है जो विभिन्न छवि सामग्री की समझ पर प्रभुत्व स्थापित कर सके, जैसे कि CLIP विज़न एन्कोडर सामान्य छवि समझ में उत्कृष्ट परिणाम देता है लेकिन दस्तावेज़ या चार्ट सामग्री पर खराब प्रदर्शन करता है। CLIP विज़न एन्कोडर के पूर्वाग्रह को कम करने के लिए, हमने पहले विभिन्न प्री-ट्रेंड विज़न एन्कोडर्स के अंतर्निहित व्यवहार का गहराई से अध्ययन किया और फिर MoVA प्रस्तावित किया, जो एक शक्तिशाली और नया MLLM है, जो कार्य-विशिष्ट विज़न विशेषज्ञों को एक मोटे से सूक्ष्म तंत्र के साथ अनुकूल रूप से मार्गदर्शित और संयोजित करता है। मोटे-ग्रेन वाले चरण में, हमने एक संदर्भ-सजग विशेषज्ञ मार्गदर्शन रणनीति डिज़ाइन की है जो उपयोगकर्ता निर्देश, इनपुट छवि और विज़न विशेषज्ञों की विशेषज्ञता के अनुसार सबसे उपयुक्त विज़न विशेषज्ञों का गतिशील चयन करती है। यह बड़े भाषा मॉडल (LLM) की शक्तिशाली मॉडल फ़ंक्शन समझ क्षमता से लाभान्वित होता है, जिसे विशेषज्ञ-मार्गदर्शन लो-रैंक अनुकूलन (LoRA) से लैस किया गया है। सूक्ष्म-ग्रेन वाले चरण में, हमने बारीकी से मिश्रण-ऑफ़-विजन-एक्सपर्ट एडाप्टर (MoV-Adapter) का उपयोग किया है ताकि विभिन्न विशेषज्ञों से कार्य-विशिष्ट ज्ञान निकाला और संयोजित किया जा सके। यह मोटे-से-सूक्ष्म प्रतिमान बहु-मोडल संदर्भ और मॉडल विशेषज्ञता पर आधारित विशेषज्ञों से प्रतिनिधित्वों का प्रभावी उपयोग करता है, जो सामान्यीकरण क्षमता को और बढ़ाता है। हमने प्रस्तावित दृष्टिकोण की प्रभावशीलता का मूल्यांकन करने के लिए व्यापक प्रयोग किए। किसी भी अतिरिक्त तकनीक के बिना, MoVA चुनौतीपूर्ण बहु-मोडल मानकों की विस्तृत श्रृंखला में वर्तमान सर्वश्रेष्ठ विधियों की तुलना में महत्वपूर्ण प्रदर्शन सुधार कर सकता है। कोड और मॉडल https://github.com/TempleX98/MoVA पर उपलब्ध होंगे।
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhuofan Zong
Bingqi Ma
D. Z. Shen
Building similarity graph...
Analyzing shared references across papers
Loading...
Zong et al. (शुक्रवार) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e6e65fb6db643587661813 — DOI: https://doi.org/10.48550/arxiv.2404.13046
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: