Key points are not available for this paper at this time.
هل نستغل الإمكانيات الكاملة للمُشفّر البصري في النماذج اللغوية الكبيرة متعددة الأنماط (MLLMs)؟ الأداء المتميز حديثًا للنماذج اللغوية الكبيرة متعددة الأنماط في الفهم متعدد الوسائط جذب اهتمامًا واسعًا من الأوساط الأكاديمية والصناعية. في السباق الحالي لـ MLLM، يبدو التركيز بشكل رئيسي على الجانب اللغوي. نشهد تصاعدًا في مجموعات البيانات التعليمات الأكبر والأعلى جودة، بالإضافة إلى مشاركة LLMs الأكبر حجمًا. ومع ذلك، لم يُولي الكثير من الاهتمام للإشارات البصرية التي تستخدمها MLLMs، والتي تُفترض غالبًا أن تكون الميزات النهائية عالية المستوى التي يستخرجها مشفّر بصري مجمّد. في هذه الورقة، نقدم الموصل الكثيف - موصل رؤية-لغة بسيط وفعال وقابل للتوصيل والتشغيل يعزز بشكل كبير MLLMs القائمة من خلال الاستفادة من الميزات البصرية متعددة الطبقات، مع تحميل حسابي إضافي ضئيل. علاوة على ذلك، يُظهر نموذجنا، المدرب فقط على الصور، قدرات ملحوظة في الفهم الصفري للفيديو أيضًا. تؤكد النتائج التجريبية عبر مشفرات بصرية مختلفة، ودقات صور متعددة، وحجوم مجموعات تدريب متنوعة، وأحجام متغيرة من LLMs (2.7B->70B)، وهياكل متنوعة لـ MLLMs (مثل LLaVA وMini-Gemini) على تعددية وقابلية تطوير منهجنا، حيث يحقق أداءً رائدًا عبر 19 معيارًا للصور والفيديو. نأمل أن يوفر هذا العمل خبرة قيمة ويكون وحدة أساسية لتطوير MLLMs في المستقبل.
Building similarity graph...
Analyzing shared references across papers
Loading...
Huanjin Yao
Wenhao Wu
Taojiannan Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
درس ياو وآخرون (الأربعاء) هذا السؤال.
www.synapsesocial.com/papers/68e68fc0b6db6435876175b3 — DOI: https://doi.org/10.48550/arxiv.2405.13800
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: