What question did this study set out to answer?

लक्ष्य है समृद्ध क्षेत्रीय ग्रंथों का उपयोग करके चीनी सांस्कृतिक अवशेषों के लिए छवि कैप्शनिंग में सुधार।

January 26, 2026

डिफ्यूजन भाषा मॉडलों के साथ चीनी सांस्कृतिक अवशेषों के लिए छवि कैप्शनिंग में सुधार

Key Points

लक्ष्य है समृद्ध क्षेत्रीय ग्रंथों का उपयोग करके चीनी सांस्कृतिक अवशेषों के लिए छवि कैप्शनिंग में सुधार।
एक बड़े क्षेत्रीय ग्रंथ संग्रह पर डिफ्यूजन भाषा मॉडल का पूर्व-प्रशिक्षण किया।
सीमित युग्मित छवि-कैप्शन डेटा पर मॉडल का फाइन-ट्यूनिंग किया।
प्रशिक्षण को दृश्यात्मक विशेषताओं पर आधारित किया।
प्रदर्शन की तुलना के लिए प्रयोगों का संचालन किया।
बेसलाइन तरीकों की तुलना में कैप्शनिंग प्रदर्शन में महत्वपूर्ण सुधार।
क्षेत्रीय ग्रंथों के प्रभावी उपयोग से सांस्कृतिक अवशेषों की बेहतर समझ।
जटिल दृष्टि-भाषा कार्यों में DLMs की क्षमता सिद्ध हुई।

Abstract

चीनी सांस्कृतिक अवशेषों के बारे में ज्ञान का दस्तावेजीकरण और प्रसार करने के लिए सटीक और विस्तृत छवि कैप्शनिंग अत्यंत आवश्यक है, फिर भी यह कार्य अपने क्षेत्र-विशिष्ट स्वभाव और युग्मित छवि-कैप्शन डेटा की तीव्र कमी के कारण गंभीर रूप से सीमित है। जबकि युग्मित दृश्य-पाठ डेटा सीमित है, इन अवशेषों के बारे में महत्वपूर्ण मात्रा में क्षेत्रीय ग्रंथ अक्सर उपलब्ध होते हैं। हम डिफ्यूजन भाषा मॉडलों (DLMs) का उपयोग करते हुए 丰富 क्षेत्रीय ग्रंथों का प्रभावी लाभ उठाने वाला चीनी सांस्कृतिक अवशेषों की छवि कैप्शनिंग के लिए एक नवीन फ्रेमवर्क प्रस्तुत करते हैं। हमारा दृष्टिकोण एक बड़े क्षेत्रीय ग्रंथ संग्रह पर DLM को पूर्व-प्रशिक्षित करना है ताकि क्षेत्र-विशिष्ट भाषाई ज्ञान स्थापित हो, इसके बाद सीमित युग्मित छवि-कैप्शन डेटा पर, दृश्यात्मक विशेषताओं को शर्तित करते हुए, पूर्व-प्रशिक्षित DLM का फाइन-ट्यूनिंग किया जाता है। प्रयोगों से पता चलता है कि यह रणनीति उन तरीकों की तुलना में कैप्शनिंग प्रदर्शन में महत्वपूर्ण सुधार करती है जो क्षेत्रीय ग्रंथों का उपयोग नहीं करते हैं या कम प्रभावी रूप से करते हैं। यह कार्य जटिल दृष्टि-भाषा उत्पादन कार्यों के लिए डेटा की कमी को दूर करने हेतु आसानी से उपलब्ध क्षेत्रीय पाठ का लाभ उठाने में DLMs की शक्ति को रेखांकित करता है, जो सांस्कृतिक विरासत दस्तावेजीकरण और व्यापक प्राकृतिक भाषा प्रसंस्करण अनुप्रयोगों के लिए एक मूल्यवान उपकरण प्रदान करता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Social Feed

Authors

Chenggang Mi

Yu Li

Journals

Journal on Computing and Cultural Heritage

Actions

Institutions

Northwestern Polytechnical University

Xi'an International Studies University

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

डिफ्यूजन भाषा मॉडलों के साथ चीनी सांस्कृतिक अवशेषों के लिए छवि कैप्शनिंग में सुधार

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Social Feed

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider