Key points are not available for this paper at this time.
في السعي نحو الذكاء الاصطناعي العام، برزت نماذج اللغة الكبيرة متعددة الوسائط (MLLMs) كنقطة محورية في التطورات الحديثة. ومع ذلك، يظل التركيز السائد على تطوير قدراتها في فهم الصور الثابتة. لا يزال احتمال MLLMs في معالجة البيانات البصرية التسلسلية غير مستكشف بشكل كافٍ، مما يبرز غياب تقييم شامل وعالي الجودة لأدائها. في هذه الورقة، نقدم Video-MME، أول معيار تقييم متعدد الوسائط كامل الطيف لنماذج اللغة الكبيرة في تحليل الفيديو. يميز عملنا نفسه عن المعايير الحالية من خلال أربع ميزات رئيسية: 1) تنوع في أنواع الفيديو، يشمل 6 مجالات بصرية رئيسية مع 30 فرعًا لضمان تعميم واسع للسيناريوهات؛ 2) مدة بُعد زمني، تشمل فيديوهات قصيرة، متوسطة وطويلة المدى، تتراوح من 11 ثانية إلى ساعة واحدة، لديناميات سياقية قوية؛ 3) اتساع في وسائل البيانات، يدمج مدخلات متعددة الوسائط بجانب إطارات الفيديو، بما في ذلك الترجمة والتحميلات الصوتية، للكشف عن القدرات الشاملة لـ MLLMs؛ 4) جودة في التعليقات التوضيحية، باستخدام تعليم يدوي دقيق من قبل خبراء لتسهيل تقييم دقيق وموثوق للنماذج. تم اختيار وتعليم يدوي لـ 900 فيديو بإجمالي 256 ساعة من خلال مشاهدة محتوى الفيديو كاملًا مرارًا، مما أسفر عن 2700 زوج من الأسئلة والأجوبة. مع Video-MME، نقوم بتقييم شامل لمجموعة متنوعة من نماذج MLLMs المتقدمة، بما في ذلك سلسلة GPT-4 وجيميني 1.5 برو، بالإضافة إلى نماذج الصور مفتوحة المصدر مثل InternVL-Chat-V1.5 ونماذج الفيديو مثل LLaVA-NeXT-Video. تكشف تجاربنا أن Gemini 1.5 Pro هو النموذج التجاري الأفضل أداءً، متفوقًا بشكل ملحوظ على النماذج مفتوحة المصدر. تؤكد مجموعتنا هذه النتائج والحاجة إلى تحسينات إضافية في معالجة التسلسلات الطويلة والبيانات متعددة الوسائط. صفحة المشروع: https://video-mme.github.io
Building similarity graph...
Analyzing shared references across papers
Loading...
Chaoyou Fu
Yuhan Dai
Yondong Luo
Building similarity graph...
Analyzing shared references across papers
Loading...
درس فو وآخرون هذا السؤال (الجمعة،).
www.synapsesocial.com/papers/68e6762bb6db643587600a59 — DOI: https://doi.org/10.48550/arxiv.2405.21075
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: