Key points are not available for this paper at this time.
प्राकृतिक भाषा प्रसंस्करण (NLP) अनुप्रयोगों में क्रांति ला चुके बड़े भाषा मॉडल (LLMs) मल्टीमॉडाल इनपुट के क्षेत्र में फैल रहे हैं। छवियों की व्याख्या करने की उनकी क्षमता के कारण, मल्टीमॉडाल LLMs (MLLMs) मुख्य रूप से विज़न-भाषा कार्यों के लिए उपयोग किए गए हैं। वर्तमान में, MLLMs को डोमेन-विशिष्ट विजुअल कार्यों के लिए विस्तारित नहीं किया गया है, जिन्हें दृश्य जानकारी की अधिक स्पष्ट समझ की आवश्यकता होती है। हमने डोमेन-विशिष्ट विजुअल और विज़न-भाषा डेटा सेटों को विजुअल क्वेश्चन आंसरिंग निर्देश (VQA-IN) नामक एक एकीकृत प्रश्नोत्तर प्रारूप में परिवर्तित करने की एक विधि विकसित की, इस प्रकार MLLM को डोमेन-विशिष्ट कार्यों के लिए विस्तारित किया। VQA-IN को छोटे संस्करण वाले LLMs (sLLMs) का उपयोग करके कई MLLM आर्किटेक्चर को प्रशिक्षित करने के लिए लागू किया गया। प्रयोगात्मक परिणामों से संकेत मिला कि प्रस्तावित विधि ने डोमेन-विशिष्ट विजुअल कार्यों पर उच्च स्कोर मीट्रिक प्राप्त किया जबकि मल्टीटास्क तरीके में विज़न-भाषा कार्यों पर भी अपनी प्रदर्शन बनाए रखा।
Building similarity graph...
Analyzing shared references across papers
Loading...
Jusung Lee
Sungguk Cha
Younghyun Lee
Building similarity graph...
Analyzing shared references across papers
Loading...
ली एट अल. (Tue,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e7958bb6db643587706816 — DOI: https://doi.org/10.48550/arxiv.2402.08360
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: