Key points are not available for this paper at this time.
मल्टीमॉडल बड़े भाषा मॉडल्स (MLLMs) के विकास में तेज़ प्रगति ने विभिन्न बेंचमार्क्स पर लगातार नए उपलब्धियों को जन्म दिया है। इसके जवाब में, MLLMs की क्षमताओं को अधिक सटीक रूप से मापने के लिए कई चुनौतीपूर्ण और व्यापक बेंचमार्क प्रस्तावित किए गए हैं। हालांकि, MLLMs की उच्च स्तरीय संवेदी क्षमताओं की खोज की कमी है। इस अंतर को भरने के लिए, हम Image Implication Understanding Benchmark, II-Bench प्रस्तावित करते हैं, जिसका उद्देश्य मॉडल की छवियों की उच्च स्तरीय धारणा का मूल्यांकन करना है। II-Bench पर विभिन्न MLLMs पर व्यापक प्रयोगों के माध्यम से, हमने महत्वपूर्ण निष्कर्ष प्राप्त किए हैं। प्रारंभ में, II-Bench पर MLLMs और मनुष्यों के प्रदर्शन के बीच एक बड़ा अंतर देखा गया है। MLLMs की उत्कृष्ट सटीकता 74.8% तक पहुँचती है, जबकि मनुष्यों की औसत सटीकता 90% है, और अधिकतम 98% तक पहुँचती है। इसके बाद, MLLMs अमूर्त और जटिल छवियों पर कमजोर प्रदर्शन करते हैं, जो उच्च-स्तरीय अर्थ और छवि विवरण को समझने में उनकी सीमाओं को दर्शाता है। अंत में, यह देखा गया है कि जब छवि की भावना ध्रुवता संकेतों को प्रम्प्ट में शामिल किया जाता है, तो अधिकांश मॉडलों की सटीकता में सुधार होता है। यह अवलोकन उनकी आंतरिक छवि भावना की समझ में एक महत्वपूर्ण कमी को रेखांकित करता है। हमें विश्वास है कि II-Bench समुदाय को next-generation MLLMs विकसित करने के लिए प्रेरित करेगा, जिससे विशेषज्ञ कृत्रिम सामान्य बुद्धिमत्ता (AGI) की दिशा में यात्रा आगे बढ़ेगी। II-Bench सार्वजनिक रूप से https://huggingface.co/datasets/m-a-p/II-Bench पर उपलब्ध है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Ziqiang Liu
Feiteng Fang
Feng Xi
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Sun,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e65872b6db6435875e794e — DOI: https://doi.org/10.48550/arxiv.2406.05862
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: