Key points are not available for this paper at this time.
हाल ही में टेक्स्ट-टू-इमेज कस्टमाइज़ेशन कार्य यह साबित कर चुके हैं कि कुछ उदाहरणों पर डिफ्यूजन मॉडल्स को फाइन-ट्यून करके दी गई अवधारणाओं की छवियां उत्पन्न की जा सकती हैं। हालांकि, ये विधियाँ अवधारणाओं को अति-अनुकूलित करती हैं, जिसके परिणामस्वरूप कई परिस्थितियों में अवधारणा बनाने में विफलता होती है (जैसे कि 'हेडफ़ोन पहने हुए कुत्ते' की छवि बनाते समय हेडफ़ोन गायब होना)। दिलचस्प बात यह है कि हम पाते हैं कि फाइन-ट्यूनिंग से पहले आधार मॉडल अन्य तत्वों के साथ मूल अवधारणा को संयोजित करने की क्षमता प्रदर्शित करता है (जैसे कि हेडफ़ोन पहने हुए कुत्ते), जो संकेत देता है कि संयोजक क्षमता केवल पर्सनलाइज़ेशन ट्यूनिंग के बाद ही गायब होती है। इस अवलोकन से प्रेरित होकर, हम ClassDiffusion प्रस्तुत करते हैं, एक सरल तकनीक जो नया अवधारणा सीखते समय अवधारणा स्थान को स्पष्ट रूप से नियंत्रित करने के लिए सेमांटिक प्रिज़र्वेशन लॉस का उपयोग करती है। इसकी सरलता के बावजूद, यह लक्ष्य अवधारणाओं पर फाइन-ट्यूनिंग के दौरान सेमांटिक ड्रीफ्ट से बचाता है। व्यापक गुणात्मक और मात्रात्मक परीक्षणों से यह सिद्ध होता है कि सेमांटिक प्रिज़र्वेशन लॉस का उपयोग फाइन-ट्यून मॉडल्स की संयोजक क्षमताओं को प्रभावी ढंग से सुधारता है। CLIP-T मेट्रिक्स के अप्रभावी मूल्यांकन के जवाब में, हम BLIP2-T मेट्रिक पेश करते हैं, जो इस विशिष्ट क्षेत्र के लिए एक अधिक न्यायसंगत और प्रभावी मूल्यांकन मेट्रिक है। हम प्रस्तावित लॉस की भूमिका को बेहतर समझने के लिए गहन अनुभवजन्य अध्ययन और सैद्धांतिक विश्लेषण भी प्रदान करते हैं। अंत में, हम अपने ClassDiffusion को वैयक्तिकृत वीडियो जनरेशन तक भी बढ़ाते हैं, जो इसकी लचीलापन प्रदर्शित करता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiannan Huang
Jun Hao Liew
Hanshu Yan
Building similarity graph...
Analyzing shared references across papers
Loading...
Huang et al. (Mon,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e68593b6db64358760dfd5 — DOI: https://doi.org/10.48550/arxiv.2405.17532
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: