June 20, 2024Open Access

इवेंट-उन्मुख लंबी वीडियो समझ की दिशा में

Key Points

Key points are not available for this paper at this time.

Abstract

वीडियो मल्टीमोडल लार्ज लैंग्वेज मॉडल्स (MLLMs) के तीव्र विकास के साथ, उनकी वीडियो समझ क्षमता का आकलन करने के लिए कई बेंचमार्क प्रस्तावित किए गए हैं। हालाँकि, वीडियो में समृद्ध घटनाओं की कमी के कारण, ये डेटासेट शॉर्टकट पक्षपात से ग्रस्त हो सकते हैं, जहाँ उत्तर कुछ फ्रेम से ही निष्कर्षित किया जा सकता है, पूरे वीडियो को देखे बिना। इस समस्या को हल करने के लिए, हम Event-Bench प्रस्तुत करते हैं, जो मौजूदा डेटासेट और मानव एनोटेशनों पर आधारित एक इवेंट-उन्मुख लंबी वीडियो समझ बेंचमार्क है। Event-Bench में छह इवेंट-संबंधित कार्य और 2,190 परीक्षण उदाहरण शामिल हैं जो वीडियो इवेंट समझ क्षमता का व्यापक मूल्यांकन करते हैं। अतिरिक्त रूप से, हम Video Instruction Merging (VIM) प्रस्तावित करते हैं, जो merged, event-intensive वीडियो निर्देशों का उपयोग करके वीडियो MLLMs को बेहतर बनाने की एक लागत-कुशल विधि है, जो मानव-एनोटेटेड, घटना-केंद्रित डेटा की कमी को दूर करती है। व्यापक प्रयोग दर्शाते हैं कि सर्वोत्तम प्रदर्शन करने वाला मॉडल GPT-4o कुल सटीकता 53.33 प्राप्त करता है, जो सर्वश्रेष्ठ ओपन-सोर्स मॉडल से 41.42% अधिक है। प्रभावी निर्देश संश्लेषण विधि और अनुकूली मॉडल आर्किटेक्चर का लाभ उठाते हुए, VIM Event-Bench पर दोनों, अत्याधुनिक ओपन-सोर्स मॉडल और GPT-4V से बेहतर प्रदर्शन करता है। सभी कोड, डेटा और मॉडल https://github.com/RUCAIBox/Event-Bench पर सार्वजनिक रूप से उपलब्ध हैं।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yifan Du

Kun Zhou

Yuqi Huo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

इवेंट-उन्मुख लंबी वीडियो समझ की दिशा में

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider