May 28, 2024Open Access

المثبتات البصرية كمُجمّعات معلومات قوية للنموذج اللغوي الكبير متعدد الوسائط

Key Points

Key points are not available for this paper at this time.

Abstract

في مجال النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs)، يلعب موصل الرؤية واللغة دورًا حيويًا لربط مشفرات الرؤية المدربة مسبقًا مع النماذج اللغوية الكبيرة (LLMs). رغم أهميته، لم يُستكشف موصل الرؤية واللغة بشكل كافٍ. في هذه الدراسة، نهدف إلى اقتراح موصل رؤية-لغة قوي يمكّن MLLMs من تحقيق دقة عالية مع الحفاظ على تكلفة حسابية منخفضة. في البداية، نكشف عن وجود المثبتات البصرية في محول الرؤية Vision Transformer ونقترح خوارزمية بحث فعالة من حيث التكلفة لاستخراجها. بناءً على هذه النتائج، نقدم Anchor Former (AcFormer)، وهو موصل رؤية-لغة جديد مصمم للاستفادة من المعرفة المسبقة الغنية المكتسبة من هذه المثبتات البصرية أثناء مرحلة التدريب المسبق، لتوجيه تجميع المعلومات. من خلال تجارب موسعة، نثبت أن الطريقة المقترحة تقلل بشكل كبير من التكاليف الحسابية بنسبة تقارب الثلثين مقارنة بالأساس، وفي الوقت نفسه تتفوق على الطرق الأساسية. هذا يبرز فعالية وكفاءة AcFormer.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haogeng Liu

Quanzeng You

Xiaotian Han

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

المثبتات البصرية كمُجمّعات معلومات قوية للنموذج اللغوي الكبير متعدد الوسائط

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider