What type of study is this?

September 10, 2025

त्वचा घाव निदान की व्याख्या को बढ़ाना: विज़न-लैंग्वेज मॉडल्स का कॉन्सेप्ट एडेप्टिव फाइन-ट्यूनिंग

Key Points

हमारी विधि त्वचा घावों के वर्गीकरण प्रदर्शन में सुधार करती है, प्राकृतिक भाषा के साथ व्याख्यात्मकता बढ़ाती है।
छोटी डेटासेट के साथ विज़न-लैंग्वेज मॉडल का फाइन-ट्यूनिंग कॉन्सेप्ट पहचान क्षमता को 8.28% बेहतर बनाता है।
यह दृष्टिकोण चिकित्सा टेक्स्ट को शामिल करता है ताकि त्वचा घावों की विशेषताओं को बेहतर ढंग से पहचाना जा सके, जिससे मॉडल अधिक व्याख्यात्मक बनते हैं।
कॉन्सेप्ट एडेप्टिव ट्यूनिंग VLMs को विशिष्ट चिकित्सा कार्यों के लिए त्वरित रूप से अनुकूलित करने की अनुमति देता है, जिससे डेटा आवश्यकताएं कम हो जाती हैं।

Abstract

त्वचा घावों के स्वचालित निदान के लिए डीप लर्निंग के अनुप्रयोग में महत्वपूर्ण प्रगति हुई है। हालाँकि, अधिकांश मॉडल अस्पष्ट बने हुए हैं, जो उनके क्लिनिकल सेटिंग्स में आवेदन को गंभीर रूप से बाधित करता है। कॉन्सेप्ट-आधारित पूर्व-अस्पष्ट व्याख्यात्मक मॉडल उच्च-स्तरीय, मानव-सुलभ अवधारणाओं को सीखकर निदान के निर्णय-प्रक्रिया को स्पष्ट करने की क्षमता रखते हैं, जबकि वे केवल वैचारिक योगदानों के संख्यात्मक मान प्रदान कर सकते हैं। प्री-ट्रेन किए गए विज़न-लैंग्वेज मॉडल्स (VLMs) बड़े पैमाने पर छवि-पाठ जोड़ों से समृद्ध विज़न-भाषा सहसंबंध सीख सकते हैं। विशिष्ट डाउनस्ट्रीम कार्यों के लिए प्री-ट्रेन VLMs का फाइन-ट्यूनिंग डेटा आवश्यकताओं को कम करने का प्रभावी तरीका है। फिर भी, जब प्री-ट्रेन मॉडल और लक्ष्य कार्य के बीच पर्याप्त अंतर होता है, तो मौजूदा ट्यूनिंग विधियाँ अक्सर सामान्यीकरण करने में संघर्ष करती हैं, जिससे VLMs को विशिष्ट चिकित्सा कार्यों के लिए पूरी तरह अनुकूलित करने के लिए पर्याप्त प्रशिक्षण डेटा की आवश्यकता होती है। इस कार्य में, हम प्री-ट्रेन VLM, BiomedCLIP के आधार पर एक कॉन्सेप्ट एडेप्टिव फाइन-ट्यूनिंग (CptAFT) विधि प्रस्तावित करते हैं, जिससे एक कॉन्सेप्ट-आधारित बहु-मोडल व्याख्यात्मक त्वचा घाव निदान मॉडल विकसित हो सके। रिपोर्ट्स और वैचारिक शब्दों जैसे चिकित्सा पाठों को शामिल करके, हमारा मॉडल सूक्ष्म विशेषताओं को पहचान सकता है और मजबूत, प्राकृतिक भाषा-संचालित व्याख्यात्मकता प्रदान करता है। इसके अलावा, हमारा कॉन्सेप्ट-एडेप्टिव तरीका जो कॉन्सेप्ट लॉजिट्स का उपयोग करके छवियों का पुनर्निर्माण करता है और मूल छवि के साथ संगतता हानि लगाता है, VLM को कम प्रशिक्षण डेटा के साथ कार्य में शीघ्र अनुकूलित करने में सक्षम बनाता है। व्यापक प्रयोगात्मक परिणाम दर्शाते हैं कि हमारा दृष्टिकोण राज्य-की-कल तक के ब्लैक-बॉक्स और व्याख्यात्मक मॉडलों की तुलना में वर्गीकरण प्रदर्शन और चिकित्सा रूप से प्रासंगिक व्याख्यात्मकता दोनों में बेहतर है। विशेष रूप से, कम मात्रा के डेटा के साथ फाइन-ट्यूनिंग के बाद, हमारा मॉडल बड़ी Skin Disease Image-Report डेटासेट पर प्रशिक्षित MONET मॉडल की तुलना में कॉन्सेप्ट पहचान क्षमता में 8.28% बेहतर प्रदर्शन करता है, जो हमारे मॉडल की व्याख्यात्मकता का प्रदर्शन करता है। कोड https://github.com/zjmiaprojects/CptAFT पर उपलब्ध हैं।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yang Yang Zhu

Xiaoyan Wang

Xiaojie Huang

Journals

IEEE Journal of Biomedical and Health Informatics

Actions

Institutions

Zhejiang University of Technology

Second Affiliated Hospital of Zhejiang University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

त्वचा घाव निदान की व्याख्या को बढ़ाना: विज़न-लैंग्वेज मॉडल्स का कॉन्सेप्ट एडेप्टिव फाइन-ट्यूनिंग

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider