June 9, 2024Open Access

II-Bench: मल्टीमॉडल बड़े भाषा मॉडल्स के लिए एक छवि अर्थ समझने का बेंचमार्क

Key Points

Key points are not available for this paper at this time.

Abstract

मल्टीमॉडल बड़े भाषा मॉडल्स (MLLMs) के विकास में तेज़ प्रगति ने विभिन्न बेंचमार्क्स पर लगातार नए उपलब्धियों को जन्म दिया है। इसके जवाब में, MLLMs की क्षमताओं को अधिक सटीक रूप से मापने के लिए कई चुनौतीपूर्ण और व्यापक बेंचमार्क प्रस्तावित किए गए हैं। हालांकि, MLLMs की उच्च स्तरीय संवेदी क्षमताओं की खोज की कमी है। इस अंतर को भरने के लिए, हम Image Implication Understanding Benchmark, II-Bench प्रस्तावित करते हैं, जिसका उद्देश्य मॉडल की छवियों की उच्च स्तरीय धारणा का मूल्यांकन करना है। II-Bench पर विभिन्न MLLMs पर व्यापक प्रयोगों के माध्यम से, हमने महत्वपूर्ण निष्कर्ष प्राप्त किए हैं। प्रारंभ में, II-Bench पर MLLMs और मनुष्यों के प्रदर्शन के बीच एक बड़ा अंतर देखा गया है। MLLMs की उत्कृष्ट सटीकता 74.8% तक पहुँचती है, जबकि मनुष्यों की औसत सटीकता 90% है, और अधिकतम 98% तक पहुँचती है। इसके बाद, MLLMs अमूर्त और जटिल छवियों पर कमजोर प्रदर्शन करते हैं, जो उच्च-स्तरीय अर्थ और छवि विवरण को समझने में उनकी सीमाओं को दर्शाता है। अंत में, यह देखा गया है कि जब छवि की भावना ध्रुवता संकेतों को प्रम्प्ट में शामिल किया जाता है, तो अधिकांश मॉडलों की सटीकता में सुधार होता है। यह अवलोकन उनकी आंतरिक छवि भावना की समझ में एक महत्वपूर्ण कमी को रेखांकित करता है। हमें विश्वास है कि II-Bench समुदाय को next-generation MLLMs विकसित करने के लिए प्रेरित करेगा, जिससे विशेषज्ञ कृत्रिम सामान्य बुद्धिमत्ता (AGI) की दिशा में यात्रा आगे बढ़ेगी। II-Bench सार्वजनिक रूप से https://huggingface.co/datasets/m-a-p/II-Bench पर उपलब्ध है।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ziqiang Liu

Feiteng Fang

Feng Xi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

II-Bench: मल्टीमॉडल बड़े भाषा मॉडल्स के लिए एक छवि अर्थ समझने का बेंचमार्क

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider