February 13, 2024Open Access

विजुअल क्वेश्चन आंसरिंग निर्देश: मल्टीमॉडाल बड़े भाषा मॉडल को डोमेन-विशिष्ट विजुअल मल्टीटास्क्स के लिए खोलना

Key Points

Key points are not available for this paper at this time.

Abstract

प्राकृतिक भाषा प्रसंस्करण (NLP) अनुप्रयोगों में क्रांति ला चुके बड़े भाषा मॉडल (LLMs) मल्टीमॉडाल इनपुट के क्षेत्र में फैल रहे हैं। छवियों की व्याख्या करने की उनकी क्षमता के कारण, मल्टीमॉडाल LLMs (MLLMs) मुख्य रूप से विज़न-भाषा कार्यों के लिए उपयोग किए गए हैं। वर्तमान में, MLLMs को डोमेन-विशिष्ट विजुअल कार्यों के लिए विस्तारित नहीं किया गया है, जिन्हें दृश्य जानकारी की अधिक स्पष्ट समझ की आवश्यकता होती है। हमने डोमेन-विशिष्ट विजुअल और विज़न-भाषा डेटा सेटों को विजुअल क्वेश्चन आंसरिंग निर्देश (VQA-IN) नामक एक एकीकृत प्रश्नोत्तर प्रारूप में परिवर्तित करने की एक विधि विकसित की, इस प्रकार MLLM को डोमेन-विशिष्ट कार्यों के लिए विस्तारित किया। VQA-IN को छोटे संस्करण वाले LLMs (sLLMs) का उपयोग करके कई MLLM आर्किटेक्चर को प्रशिक्षित करने के लिए लागू किया गया। प्रयोगात्मक परिणामों से संकेत मिला कि प्रस्तावित विधि ने डोमेन-विशिष्ट विजुअल कार्यों पर उच्च स्कोर मीट्रिक प्राप्त किया जबकि मल्टीटास्क तरीके में विज़न-भाषा कार्यों पर भी अपनी प्रदर्शन बनाए रखा।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jusung Lee

Sungguk Cha

Younghyun Lee

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

विजुअल क्वेश्चन आंसरिंग निर्देश: मल्टीमॉडाल बड़े भाषा मॉडल को डोमेन-विशिष्ट विजुअल मल्टीटास्क्स के लिए खोलना

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider