Key points are not available for this paper at this time.
वीडियो मल्टीमोडल लार्ज लैंग्वेज मॉडल्स (MLLMs) के तीव्र विकास के साथ, उनकी वीडियो समझ क्षमता का आकलन करने के लिए कई बेंचमार्क प्रस्तावित किए गए हैं। हालाँकि, वीडियो में समृद्ध घटनाओं की कमी के कारण, ये डेटासेट शॉर्टकट पक्षपात से ग्रस्त हो सकते हैं, जहाँ उत्तर कुछ फ्रेम से ही निष्कर्षित किया जा सकता है, पूरे वीडियो को देखे बिना। इस समस्या को हल करने के लिए, हम Event-Bench प्रस्तुत करते हैं, जो मौजूदा डेटासेट और मानव एनोटेशनों पर आधारित एक इवेंट-उन्मुख लंबी वीडियो समझ बेंचमार्क है। Event-Bench में छह इवेंट-संबंधित कार्य और 2,190 परीक्षण उदाहरण शामिल हैं जो वीडियो इवेंट समझ क्षमता का व्यापक मूल्यांकन करते हैं। अतिरिक्त रूप से, हम Video Instruction Merging (VIM) प्रस्तावित करते हैं, जो merged, event-intensive वीडियो निर्देशों का उपयोग करके वीडियो MLLMs को बेहतर बनाने की एक लागत-कुशल विधि है, जो मानव-एनोटेटेड, घटना-केंद्रित डेटा की कमी को दूर करती है। व्यापक प्रयोग दर्शाते हैं कि सर्वोत्तम प्रदर्शन करने वाला मॉडल GPT-4o कुल सटीकता 53.33 प्राप्त करता है, जो सर्वश्रेष्ठ ओपन-सोर्स मॉडल से 41.42% अधिक है। प्रभावी निर्देश संश्लेषण विधि और अनुकूली मॉडल आर्किटेक्चर का लाभ उठाते हुए, VIM Event-Bench पर दोनों, अत्याधुनिक ओपन-सोर्स मॉडल और GPT-4V से बेहतर प्रदर्शन करता है। सभी कोड, डेटा और मॉडल https://github.com/RUCAIBox/Event-Bench पर सार्वजनिक रूप से उपलब्ध हैं।
Building similarity graph...
Analyzing shared references across papers
Loading...
Yifan Du
Kun Zhou
Yuqi Huo
Building similarity graph...
Analyzing shared references across papers
Loading...
Du et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e6404bb6db6435875d2087 — DOI: https://doi.org/10.48550/arxiv.2406.14129
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: