Key points are not available for this paper at this time.
Nous présentons MuirBench, un benchmark complet qui se concentre sur les capacités robustes de compréhension multi-images des LLM multimodaux. MuirBench comprend 12 tâches diverses de multi-images (par exemple, compréhension de scène, ordonnancement) impliquant 10 catégories de relations multi-images (par exemple, multivue, relations temporelles). Composé de 11 264 images et 2 600 questions à choix multiple, MuirBench est créé de manière appariée, où chaque instance standard est associée à une variante non-répondable ayant des différences sémantiques minimales, afin d'assurer une évaluation fiable. Évalués sur 20 LLM multimodaux récents, nos résultats révèlent que même les modèles les plus performants comme GPT-4o et Gemini Pro trouvent difficile de résoudre MuirBench, atteignant respectivement 68,0 % et 49,3 % de précision. Les LLM multimodaux open-source entraînés sur des images uniques ont du mal à généraliser aux questions multi-images, stagnants sous 33,3 % de précision. Ces résultats soulignent l'importance de MuirBench pour encourager la communauté à développer des LLM multimodaux capables de regarder au-delà d'une seule image, suggérant des pistes potentielles pour des améliorations futures.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fei Wang
Xingyu Fu
James Y. Huang
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (jeu,) ont étudié cette question.
www.synapsesocial.com/papers/68e64f88b6db6435875e01cb — DOI: https://doi.org/10.48550/arxiv.2406.09411
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: