May 31, 2024Open Access

فيديو-MME: أول معيار تقييم شامل على الإطلاق لنماذج اللغة الكبيرة متعددة الوسائط في تحليل الفيديو

Key Points

Key points are not available for this paper at this time.

Abstract

في السعي نحو الذكاء الاصطناعي العام، برزت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) كنقطة محورية في التطورات الحديثة. ومع ذلك، يظل التركيز السائد على تطوير قدراتها في فهم الصور الثابتة. لا يزال احتمال MLLMs في معالجة البيانات البصرية التسلسلية غير مستكشف بشكل كافٍ، مما يبرز غياب تقييم شامل وعالي الجودة لأدائها. في هذه الورقة، نقدم Video-MME، أول معيار تقييم متعدد الوسائط كامل الطيف لنماذج اللغة الكبيرة في تحليل الفيديو. يميز عملنا نفسه عن المعايير الحالية من خلال أربع ميزات رئيسية: 1) تنوع في أنواع الفيديو، يشمل 6 مجالات بصرية رئيسية مع 30 فرعًا لضمان تعميم واسع للسيناريوهات؛ 2) مدة بُعد زمني، تشمل فيديوهات قصيرة، متوسطة وطويلة المدى، تتراوح من 11 ثانية إلى ساعة واحدة، لديناميات سياقية قوية؛ 3) اتساع في وسائل البيانات، يدمج مدخلات متعددة الوسائط بجانب إطارات الفيديو، بما في ذلك الترجمة والتحميلات الصوتية، للكشف عن القدرات الشاملة لـ MLLMs؛ 4) جودة في التعليقات التوضيحية، باستخدام تعليم يدوي دقيق من قبل خبراء لتسهيل تقييم دقيق وموثوق للنماذج. تم اختيار وتعليم يدوي لـ 900 فيديو بإجمالي 256 ساعة من خلال مشاهدة محتوى الفيديو كاملًا مرارًا، مما أسفر عن 2700 زوج من الأسئلة والأجوبة. مع Video-MME، نقوم بتقييم شامل لمجموعة متنوعة من نماذج MLLMs المتقدمة، بما في ذلك سلسلة GPT-4 وجيميني 1.5 برو، بالإضافة إلى نماذج الصور مفتوحة المصدر مثل InternVL-Chat-V1.5 ونماذج الفيديو مثل LLaVA-NeXT-Video. تكشف تجاربنا أن Gemini 1.5 Pro هو النموذج التجاري الأفضل أداءً، متفوقًا بشكل ملحوظ على النماذج مفتوحة المصدر. تؤكد مجموعتنا هذه النتائج والحاجة إلى تحسينات إضافية في معالجة التسلسلات الطويلة والبيانات متعددة الوسائط. صفحة المشروع: https://video-mme.github.io

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chaoyou Fu

Yuhan Dai

Yondong Luo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

فيديو-MME: أول معيار تقييم شامل على الإطلاق لنماذج اللغة الكبيرة متعددة الوسائط في تحليل الفيديو

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider