June 13, 2024Open Access

MuirBench : un benchmark complet pour la compréhension robuste d'images multiples

Key Points

Key points are not available for this paper at this time.

Abstract

Nous présentons MuirBench, un benchmark complet qui se concentre sur les capacités robustes de compréhension multi-images des LLM multimodaux. MuirBench comprend 12 tâches diverses de multi-images (par exemple, compréhension de scène, ordonnancement) impliquant 10 catégories de relations multi-images (par exemple, multivue, relations temporelles). Composé de 11 264 images et 2 600 questions à choix multiple, MuirBench est créé de manière appariée, où chaque instance standard est associée à une variante non-répondable ayant des différences sémantiques minimales, afin d'assurer une évaluation fiable. Évalués sur 20 LLM multimodaux récents, nos résultats révèlent que même les modèles les plus performants comme GPT-4o et Gemini Pro trouvent difficile de résoudre MuirBench, atteignant respectivement 68,0 % et 49,3 % de précision. Les LLM multimodaux open-source entraînés sur des images uniques ont du mal à généraliser aux questions multi-images, stagnants sous 33,3 % de précision. Ces résultats soulignent l'importance de MuirBench pour encourager la communauté à développer des LLM multimodaux capables de regarder au-delà d'une seule image, suggérant des pistes potentielles pour des améliorations futures.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fei Wang

Xingyu Fu

James Y. Huang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MuirBench : un benchmark complet pour la compréhension robuste d'images multiples

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider