Key points are not available for this paper at this time.
في مجال النماذج اللغوية الكبيرة متعددة الوسائط (MLLMs)، يلعب موصل الرؤية واللغة دورًا حيويًا لربط مشفرات الرؤية المدربة مسبقًا مع النماذج اللغوية الكبيرة (LLMs). رغم أهميته، لم يُستكشف موصل الرؤية واللغة بشكل كافٍ. في هذه الدراسة، نهدف إلى اقتراح موصل رؤية-لغة قوي يمكّن MLLMs من تحقيق دقة عالية مع الحفاظ على تكلفة حسابية منخفضة. في البداية، نكشف عن وجود المثبتات البصرية في محول الرؤية Vision Transformer ونقترح خوارزمية بحث فعالة من حيث التكلفة لاستخراجها. بناءً على هذه النتائج، نقدم Anchor Former (AcFormer)، وهو موصل رؤية-لغة جديد مصمم للاستفادة من المعرفة المسبقة الغنية المكتسبة من هذه المثبتات البصرية أثناء مرحلة التدريب المسبق، لتوجيه تجميع المعلومات. من خلال تجارب موسعة، نثبت أن الطريقة المقترحة تقلل بشكل كبير من التكاليف الحسابية بنسبة تقارب الثلثين مقارنة بالأساس، وفي الوقت نفسه تتفوق على الطرق الأساسية. هذا يبرز فعالية وكفاءة AcFormer.
Building similarity graph...
Analyzing shared references across papers
Loading...
Haogeng Liu
Quanzeng You
Xiaotian Han
Building similarity graph...
Analyzing shared references across papers
Loading...
درس ليو وآخرون (Tue,) هذا السؤال.
www.synapsesocial.com/papers/68e68232b6db64358760b774 — DOI: https://doi.org/10.48550/arxiv.2405.17815
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: