March 22, 2024Open Access

Long-CLIP: فتح إمكانيات النص الطويل في CLIP

Key Points

Key points are not available for this paper at this time.

Abstract

التدريب المسبق التبايني للغة والصورة (CLIP) كان حجر الأساس للتصنيف بدون تدريب مسبق، واسترجاع النص والصورة، وتوليد النص والصورة من خلال محاذاة أنماط الصورة والنص. بالرغم من تبنيه على نطاق واسع، إلا أن هناك قيدًا رئيسيًا في CLIP وهو قصر طول النص المدخل. طول رموز النص مقيد بـ 77، وتُظهر دراسة تجريبية أن الطول الفعال الفعلي أقل من 20. هذا يمنع CLIP من التعامل مع أوصاف تفصيلية، مما يحد من تطبيقاته في استرجاع الصور وتوليد الصور من النصوص ذات المتطلبات الطويلة. وللتغلب على ذلك، نقترح Long-CLIP كبديل قابل للتوصيل والتشغيل لـ CLIP يدعم إدخال النص الطويل، ويحافظ على قدرته العامة بدون تدريب مسبق أو يتجاوزها، ويُحاذي فضاء CLIP الكامن، مما يجعله قابلاً للاستبدال الفوري لـ CLIP دون الحاجة لأي تكيف إضافي في الأُطُر اللاحقة. ومع ذلك، تحقيق هذا الهدف ليس بالأمر البسيط، حيث قد يؤدي تعديل بسيط إلى تدهور كبير في أداء CLIP. علاوة على ذلك، استبدال مشفر النص بنموذج لغوي يدعم سياقات أطول يستلزم تدريبًا مسبقًا بكمية هائلة من البيانات، ما يتسبب في تكاليف كبيرة. وبناءً عليه، يقدم Long-CLIP حل تعديل فعال على CLIP مع استراتيجيتين مبتكرتين للحفاظ على القدرات الأصلية، وهما (1) تمديد موضع التضمين مع حفظ المعرفة، و(2) مطابقة المكونات الأساسية لميزات CLIP. باستخدام فقط مليون زوج نص-صورة طويل إضافي، أظهر Long-CLIP تفوقًا على CLIP بنسبة حوالي 20% في استرجاع الصور بنصوص التسمية الطويلة و6% في مهام استرجاع الصور التقليدية مثل COCO وFlickr30k. بالإضافة إلى ذلك، يوفر Long-CLIP قدرات محسنة لتوليد الصور من أوصاف نصية تفصيلية من خلال استبدال CLIP بطريقة قابلة للتوصيل والتشغيل.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Beichen Zhang

Pan Zhang

Xiaoyi Dong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Long-CLIP: فتح إمكانيات النص الطويل في CLIP

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider