April 18, 2024Open Access

Omniview-Tuning: विज़न-लैंग्वेज प्री-ट्रेनिंग मॉडल्स के दृष्टिकोण असमानता को बढ़ावा देना

Key Points

Key points are not available for this paper at this time.

Abstract

विज़न-लैंग्वेज प्री-ट्रेनिंग (VLP) मॉडल्स जैसे CLIP ने कंप्यूटर विज़न में उल्लेखनीय सफलता हासिल की है और विशेष रूप से 2D चित्रों के वितरण परिवर्तन के प्रति उत्कृष्ट स्थिरता प्रदर्शित की है। हालांकि, 3D दृष्टिकोण परिवर्तनों के तहत उनकी स्थिरता अभी भी सीमित है, जो वास्तविक दुनिया के अनुप्रयोगों के विकास में बाधा उत्पन्न कर सकता है। यह पेपर इस चिंता को सफलतापूर्वक संबोधित करता है और VLP के मौलिक प्रदर्शन को बनाए रखते हुए दो मुख्य बाधाओं को पार करता है: 1) प्रशिक्षण डेटा की कमी और 2) उपयुक्त फाइन-ट्यूनिंग पद्धतियों की कमी। डेटा की कमी से निपटने के लिए, हमने Multi-View Caption (MVCap) डेटासेट बनाया है - जो 100K से अधिक वस्तुओं के चार मिलियन से अधिक मल्टी-व्यू इमेज-टेक्स्ट जोड़े का व्यापक संग्रह है, जो VLP मॉडल्स को सामान्यीकृत दृष्टिकोण-इन्वेरिएंट प्रतिनिधित्व विकसित करने की अधिक संभावना प्रदान करता है। प्रदर्शन समझौतों और प्रशिक्षण दक्षता में मौजूदा पद्धतियों की सीमाओं को संबोधित करने के लिए, हमने एक नया फाइन-ट्यूनिंग फ्रेमवर्क डिज़ाइन किया है जिसे Omniview-Tuning (OVT) कहा जाता है। विशेष रूप से, OVT एक क्रॉस-व्यूपॉइंट एलाइन्मेंट उद्देश्य प्रस्तुत करता है जो एक मिनीमैक्स जैसी अनुकूलन रणनीति के माध्यम से विभिन्न दृष्टिकोणों से समान वस्तुओं के प्रतिनिधित्व को प्रभावी ढंग से संरेखित करता है बिना ओवरफिटिंग के। अतिरिक्त रूप से, OVT VLP मॉडल्स को एक पैरामीटर-कुशल तरीके से फाइन-ट्यून करता है, जिसके कारण गणनात्मक लागत न्यूनतम होती है। विभिन्न वास्तुकलाओं वाले विभिन्न VLP मॉडल्स पर व्यापक प्रयोग दर्शाते हैं कि OVT दृष्टिकोण बदलावों के प्रति मॉडल्स की सहनशीलता को महत्वपूर्ण रूप से बढ़ाता है और मूल प्रदर्शन को बनाए रखता है, जो VLP मॉडल्स की दृष्टिकोण असमानता बढ़ाने के लिए एक अग्रणी मानक स्थापित करता है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shouwei Ruan

Yinpeng Dong

Hanqing Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Omniview-Tuning: विज़न-लैंग्वेज प्री-ट्रेनिंग मॉडल्स के दृष्टिकोण असमानता को बढ़ावा देना

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider