चीनी सांस्कृतिक अवशेषों के बारे में ज्ञान का दस्तावेजीकरण और प्रसार करने के लिए सटीक और विस्तृत छवि कैप्शनिंग अत्यंत आवश्यक है, फिर भी यह कार्य अपने क्षेत्र-विशिष्ट स्वभाव और युग्मित छवि-कैप्शन डेटा की तीव्र कमी के कारण गंभीर रूप से सीमित है। जबकि युग्मित दृश्य-पाठ डेटा सीमित है, इन अवशेषों के बारे में महत्वपूर्ण मात्रा में क्षेत्रीय ग्रंथ अक्सर उपलब्ध होते हैं। हम डिफ्यूजन भाषा मॉडलों (DLMs) का उपयोग करते हुए 丰富 क्षेत्रीय ग्रंथों का प्रभावी लाभ उठाने वाला चीनी सांस्कृतिक अवशेषों की छवि कैप्शनिंग के लिए एक नवीन फ्रेमवर्क प्रस्तुत करते हैं। हमारा दृष्टिकोण एक बड़े क्षेत्रीय ग्रंथ संग्रह पर DLM को पूर्व-प्रशिक्षित करना है ताकि क्षेत्र-विशिष्ट भाषाई ज्ञान स्थापित हो, इसके बाद सीमित युग्मित छवि-कैप्शन डेटा पर, दृश्यात्मक विशेषताओं को शर्तित करते हुए, पूर्व-प्रशिक्षित DLM का फाइन-ट्यूनिंग किया जाता है। प्रयोगों से पता चलता है कि यह रणनीति उन तरीकों की तुलना में कैप्शनिंग प्रदर्शन में महत्वपूर्ण सुधार करती है जो क्षेत्रीय ग्रंथों का उपयोग नहीं करते हैं या कम प्रभावी रूप से करते हैं। यह कार्य जटिल दृष्टि-भाषा उत्पादन कार्यों के लिए डेटा की कमी को दूर करने हेतु आसानी से उपलब्ध क्षेत्रीय पाठ का लाभ उठाने में DLMs की शक्ति को रेखांकित करता है, जो सांस्कृतिक विरासत दस्तावेजीकरण और व्यापक प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों के लिए एक मूल्यवान उपकरण प्रदान करता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Chenggang Mi
Yu Li
Journal on Computing and Cultural Heritage
Northwestern Polytechnical University
Xi'an International Studies University
Building similarity graph...
Analyzing shared references across papers
Loading...
Mi et al. (Sat,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/697703f6722626c4468e8fbc — DOI: https://doi.org/10.1145/3793547
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: