Key points are not available for this paper at this time.
التدريب المسبق التبايني للغة والصورة (CLIP) كان حجر الأساس للتصنيف بدون تدريب مسبق، واسترجاع النص والصورة، وتوليد النص والصورة من خلال محاذاة أنماط الصورة والنص. بالرغم من تبنيه على نطاق واسع، إلا أن هناك قيدًا رئيسيًا في CLIP وهو قصر طول النص المدخل. طول رموز النص مقيد بـ 77، وتُظهر دراسة تجريبية أن الطول الفعال الفعلي أقل من 20. هذا يمنع CLIP من التعامل مع أوصاف تفصيلية، مما يحد من تطبيقاته في استرجاع الصور وتوليد الصور من النصوص ذات المتطلبات الطويلة. وللتغلب على ذلك، نقترح Long-CLIP كبديل قابل للتوصيل والتشغيل لـ CLIP يدعم إدخال النص الطويل، ويحافظ على قدرته العامة بدون تدريب مسبق أو يتجاوزها، ويُحاذي فضاء CLIP الكامن، مما يجعله قابلاً للاستبدال الفوري لـ CLIP دون الحاجة لأي تكيف إضافي في الأُطُر اللاحقة. ومع ذلك، تحقيق هذا الهدف ليس بالأمر البسيط، حيث قد يؤدي تعديل بسيط إلى تدهور كبير في أداء CLIP. علاوة على ذلك، استبدال مشفر النص بنموذج لغوي يدعم سياقات أطول يستلزم تدريبًا مسبقًا بكمية هائلة من البيانات، ما يتسبب في تكاليف كبيرة. وبناءً عليه، يقدم Long-CLIP حل تعديل فعال على CLIP مع استراتيجيتين مبتكرتين للحفاظ على القدرات الأصلية، وهما (1) تمديد موضع التضمين مع حفظ المعرفة، و(2) مطابقة المكونات الأساسية لميزات CLIP. باستخدام فقط مليون زوج نص-صورة طويل إضافي، أظهر Long-CLIP تفوقًا على CLIP بنسبة حوالي 20% في استرجاع الصور بنصوص التسمية الطويلة و6% في مهام استرجاع الصور التقليدية مثل COCO وFlickr30k. بالإضافة إلى ذلك، يوفر Long-CLIP قدرات محسنة لتوليد الصور من أوصاف نصية تفصيلية من خلال استبدال CLIP بطريقة قابلة للتوصيل والتشغيل.
Building similarity graph...
Analyzing shared references across papers
Loading...
Beichen Zhang
Pan Zhang
Xiaoyi Dong
Building similarity graph...
Analyzing shared references across papers
Loading...
درس Zhang وآخرون هذه المسألة.
www.synapsesocial.com/papers/68e72ce0b6db6435876a69e9 — DOI: https://doi.org/10.48550/arxiv.2403.15378
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: