Key points are not available for this paper at this time.
विज़न-लैंग्वेज प्री-ट्रेनिंग (VLP) मॉडल्स जैसे CLIP ने कंप्यूटर विज़न में उल्लेखनीय सफलता हासिल की है और विशेष रूप से 2D चित्रों के वितरण परिवर्तन के प्रति उत्कृष्ट स्थिरता प्रदर्शित की है। हालांकि, 3D दृष्टिकोण परिवर्तनों के तहत उनकी स्थिरता अभी भी सीमित है, जो वास्तविक दुनिया के अनुप्रयोगों के विकास में बाधा उत्पन्न कर सकता है। यह पेपर इस चिंता को सफलतापूर्वक संबोधित करता है और VLP के मौलिक प्रदर्शन को बनाए रखते हुए दो मुख्य बाधाओं को पार करता है: 1) प्रशिक्षण डेटा की कमी और 2) उपयुक्त फाइन-ट्यूनिंग पद्धतियों की कमी। डेटा की कमी से निपटने के लिए, हमने Multi-View Caption (MVCap) डेटासेट बनाया है - जो 100K से अधिक वस्तुओं के चार मिलियन से अधिक मल्टी-व्यू इमेज-टेक्स्ट जोड़े का व्यापक संग्रह है, जो VLP मॉडल्स को सामान्यीकृत दृष्टिकोण-इन्वेरिएंट प्रतिनिधित्व विकसित करने की अधिक संभावना प्रदान करता है। प्रदर्शन समझौतों और प्रशिक्षण दक्षता में मौजूदा पद्धतियों की सीमाओं को संबोधित करने के लिए, हमने एक नया फाइन-ट्यूनिंग फ्रेमवर्क डिज़ाइन किया है जिसे Omniview-Tuning (OVT) कहा जाता है। विशेष रूप से, OVT एक क्रॉस-व्यूपॉइंट एलाइन्मेंट उद्देश्य प्रस्तुत करता है जो एक मिनीमैक्स जैसी अनुकूलन रणनीति के माध्यम से विभिन्न दृष्टिकोणों से समान वस्तुओं के प्रतिनिधित्व को प्रभावी ढंग से संरेखित करता है बिना ओवरफिटिंग के। अतिरिक्त रूप से, OVT VLP मॉडल्स को एक पैरामीटर-कुशल तरीके से फाइन-ट्यून करता है, जिसके कारण गणनात्मक लागत न्यूनतम होती है। विभिन्न वास्तुकलाओं वाले विभिन्न VLP मॉडल्स पर व्यापक प्रयोग दर्शाते हैं कि OVT दृष्टिकोण बदलावों के प्रति मॉडल्स की सहनशीलता को महत्वपूर्ण रूप से बढ़ाता है और मूल प्रदर्शन को बनाए रखता है, जो VLP मॉडल्स की दृष्टिकोण असमानता बढ़ाने के लिए एक अग्रणी मानक स्थापित करता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Shouwei Ruan
Yinpeng Dong
Hanqing Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Ruan et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e6e9b3b6db6435876654ae — DOI: https://doi.org/10.48550/arxiv.2404.12139
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: