March 31, 2024Open Access

Lipsum-FT: تحسين دقيق قوي لنماذج الرؤية الصفرية باستخدام إرشادات نصية عشوائية

Key Points

Key points are not available for this paper at this time.

Abstract

تقدم النماذج المدربة مسبقًا على نطاق واسع والتي تعتمد على المقارنة بين الرؤية واللغة نموذج الصفر-شوت الذي يحقق أداء تنافسي عبر مجموعة من مهام تصنيف الصور دون الحاجة للتدريب على بيانات لاحقة. أكدت الأعمال الحديثة أنه في حين أن تحسين التعديل الإضافي للنموذج الصفر-شوت على بيانات المرجع يؤدي إلى تحسين الأداء اللاحق، فإنه يضر بمتانة النموذج تجاه تغييرات التوزيع. تبدأ تحقيقاتنا بفحص الشروط اللازمة لتحقيق أهداف التحسين الدقيق القوي، مستخدمين أوصافًا مبنية على نظرية تشويه الميزات والنماذج المشتركة القائمة على الطاقة. بعد ذلك، نقترح خوارزمية تحسين دقيق قوية جديدة، Lipsum-FT، تستفيد بفعالية من جانب نمذجة اللغة في النماذج المدربة مسبقًا للرؤية واللغة. تؤكد التجارب الواسعة التي أجريت على سيناريوهات تغير التوزيع في DomainNet وImageNet تفوق نهج Lipsum-FT المقترح مقارنة بأساليب التحسين الدقيق القوي الموجودة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Giung Nam

Byeongho Heo

Ju Ho Lee

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Lipsum-FT: تحسين دقيق قوي لنماذج الرؤية الصفرية باستخدام إرشادات نصية عشوائية

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider