April 19, 2024Open Access

MoVA: बहु-मोडल संदर्भ के लिए विज़न विशेषज्ञों के मिश्रण को अनुकूलित करना

Key Points

Key points are not available for this paper at this time.

Abstract

बहु-मोडल बड़े भाषा मॉडलों (MLLMs) में प्रमुख घटक के रूप में, विज़ुअल एन्कोडर की क्षमता MLLM की विविध छवि सामग्री की समझ को बहुत प्रभावित करती है। हालांकि CLIP और DINOv2 में विज़न एन्कोडर्स जैसे कुछ बड़े पैमाने पर प्रीट्रेंड विज़न एन्कोडर्स ने आशाजनक प्रदर्शन दिया है, हमने पाया कि अभी भी कोई एकल विज़न एन्कोडर नहीं है जो विभिन्न छवि सामग्री की समझ पर प्रभुत्व स्थापित कर सके, जैसे कि CLIP विज़न एन्कोडर सामान्य छवि समझ में उत्कृष्ट परिणाम देता है लेकिन दस्तावेज़ या चार्ट सामग्री पर खराब प्रदर्शन करता है। CLIP विज़न एन्कोडर के पूर्वाग्रह को कम करने के लिए, हमने पहले विभिन्न प्री-ट्रेंड विज़न एन्कोडर्स के अंतर्निहित व्यवहार का गहराई से अध्ययन किया और फिर MoVA प्रस्तावित किया, जो एक शक्तिशाली और नया MLLM है, जो कार्य-विशिष्ट विज़न विशेषज्ञों को एक मोटे से सूक्ष्म तंत्र के साथ अनुकूल रूप से मार्गदर्शित और संयोजित करता है। मोटे-ग्रेन वाले चरण में, हमने एक संदर्भ-सजग विशेषज्ञ मार्गदर्शन रणनीति डिज़ाइन की है जो उपयोगकर्ता निर्देश, इनपुट छवि और विज़न विशेषज्ञों की विशेषज्ञता के अनुसार सबसे उपयुक्त विज़न विशेषज्ञों का गतिशील चयन करती है। यह बड़े भाषा मॉडल (LLM) की शक्तिशाली मॉडल फ़ंक्शन समझ क्षमता से लाभान्वित होता है, जिसे विशेषज्ञ-मार्गदर्शन लो-रैंक अनुकूलन (LoRA) से लैस किया गया है। सूक्ष्म-ग्रेन वाले चरण में, हमने बारीकी से मिश्रण-ऑफ़-विजन-एक्सपर्ट एडाप्टर (MoV-Adapter) का उपयोग किया है ताकि विभिन्न विशेषज्ञों से कार्य-विशिष्ट ज्ञान निकाला और संयोजित किया जा सके। यह मोटे-से-सूक्ष्म प्रतिमान बहु-मोडल संदर्भ और मॉडल विशेषज्ञता पर आधारित विशेषज्ञों से प्रतिनिधित्वों का प्रभावी उपयोग करता है, जो सामान्यीकरण क्षमता को और बढ़ाता है। हमने प्रस्तावित दृष्टिकोण की प्रभावशीलता का मूल्यांकन करने के लिए व्यापक प्रयोग किए। किसी भी अतिरिक्त तकनीक के बिना, MoVA चुनौतीपूर्ण बहु-मोडल मानकों की विस्तृत श्रृंखला में वर्तमान सर्वश्रेष्ठ विधियों की तुलना में महत्वपूर्ण प्रदर्शन सुधार कर सकता है। कोड और मॉडल https://github.com/TempleX98/MoVA पर उपलब्ध होंगे।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhuofan Zong

Bingqi Ma

D. Z. Shen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoVA: बहु-मोडल संदर्भ के लिए विज़न विशेषज्ञों के मिश्रण को अनुकूलित करना

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider