أظهر تعديل المطالبات في نماذج الرؤية واللغة (VLMs) مثل CLIP القدرة على التكيف السريع مع مهام مختلفة لاحقة. ومع ذلك، تشير الدراسات الحديثة إلى أن نماذج VLM المعدلة قد تعاني من مشكلة الترابطات الزائفة، حيث يعتمد النموذج على ميزات زائفة (مثلاً الخلفية والنوع) في البيانات. قد يؤدي ذلك إلى تدني متانة النموذج عند التعامل مع بيانات خارج التوزيع. الطرق التقليدية لإزالة الترابطات الزائفة عادةً ما تتطلب معرفة تسميات الصفات الزائفة لكل عينة، وهو أمر صعب في الواقع. في هذا العمل، نستكشف تحسين متانة المجموعات لتعديل المطالبات في نماذج VLM بدون الاعتماد على التعليقات التوضيحية اليدوية للميزات الزائفة. نلاحظ قدرة نماذج VLM على التعرف على الصور بشكل صفر-طلقة ونستخدم هذه القدرة لتحديد الميزات الزائفة، متجنبين بذلك تكلفة التعليقات اليدوية. من خلال الاستفادة من تعليقات توضيحية زائفة للصفات الزائفة، نقترح أيضًا طريقة لضبط أوزان التدريب لمجموعات مختلفة تلقائيًا. تُظهر التجارب الواسعة أن نهجنا يحسّن بكفاءة دقة أسوأ مجموعة على مجموعات بيانات CelebA وWaterbirds وMetaShift، محققًا أفضل فجوة متانة بين دقة أسوأ مجموعة والدقة الإجمالية.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chaoquan Jiang
Yunfan Yang
Rui Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Jiang وآخرون هذه المسألة.
www.synapsesocial.com/papers/68da58c9c1728099cfd109db — DOI: https://doi.org/10.48550/arxiv.2503.08368
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: