May 22, 2024Open Access

موصل كثيف للنماذج اللغوية الكبيرة متعددة الأنماط

Key Points

Key points are not available for this paper at this time.

Abstract

هل نستغل الإمكانيات الكاملة للمُشفّر البصري في النماذج اللغوية الكبيرة متعددة الأنماط (MLLMs)؟ الأداء المتميز حديثًا للنماذج اللغوية الكبيرة متعددة الأنماط في الفهم متعدد الوسائط جذب اهتمامًا واسعًا من الأوساط الأكاديمية والصناعية. في السباق الحالي لـ MLLM، يبدو التركيز بشكل رئيسي على الجانب اللغوي. نشهد تصاعدًا في مجموعات البيانات التعليمات الأكبر والأعلى جودة، بالإضافة إلى مشاركة LLMs الأكبر حجمًا. ومع ذلك، لم يُولي الكثير من الاهتمام للإشارات البصرية التي تستخدمها MLLMs، والتي تُفترض غالبًا أن تكون الميزات النهائية عالية المستوى التي يستخرجها مشفّر بصري مجمّد. في هذه الورقة، نقدم الموصل الكثيف - موصل رؤية-لغة بسيط وفعال وقابل للتوصيل والتشغيل يعزز بشكل كبير MLLMs القائمة من خلال الاستفادة من الميزات البصرية متعددة الطبقات، مع تحميل حسابي إضافي ضئيل. علاوة على ذلك، يُظهر نموذجنا، المدرب فقط على الصور، قدرات ملحوظة في الفهم الصفري للفيديو أيضًا. تؤكد النتائج التجريبية عبر مشفرات بصرية مختلفة، ودقات صور متعددة، وحجوم مجموعات تدريب متنوعة، وأحجام متغيرة من LLMs (2.7B->70B)، وهياكل متنوعة لـ MLLMs (مثل LLaVA وMini-Gemini) على تعددية وقابلية تطوير منهجنا، حيث يحقق أداءً رائدًا عبر 19 معيارًا للصور والفيديو. نأمل أن يوفر هذا العمل خبرة قيمة ويكون وحدة أساسية لتطوير MLLMs في المستقبل.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Huanjin Yao

Wenhao Wu

Taojiannan Yang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

موصل كثيف للنماذج اللغوية الكبيرة متعددة الأنماط

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider