Los puntos clave no están disponibles para este artículo en este momento.
El razonamiento multimodal multilingüe es un componente central para alcanzar la inteligencia a nivel humano. Sin embargo, la mayoría de los benchmarks existentes para el razonamiento multimodal multilingüe tienen dificultades para diferenciar entre modelos con distintos niveles de desempeño; incluso modelos de lenguaje sin capacidades visuales pueden alcanzar fácilmente puntuaciones altas. Esto deja una evaluación exhaustiva de los principales modelos multimodales multilingües en gran medida sin explorar. En este trabajo, presentamos M4U, un benchmark novedoso y desafiante para evaluar la capacidad de comprensión y razonamiento multimodal multilingüe multidisciplinario. M4U contiene 8,931 muestras que cubren 64 disciplinas a lo largo de 16 subcampos en Ciencia, Ingeniería y Salud en chino, inglés y alemán. Usando M4U, realizamos evaluaciones extensas de 21 de los principales Modelos Multimodales Grandes (LMMs) y Modelos Grandes de Lenguaje (LLMs) con herramientas externas. Los resultados de la evaluación muestran que el modelo de última generación, GPT-4o, alcanza solo un 47.6% de precisión promedio en M4U. Además, observamos que los LMM líderes exhiben preferencias significativas por ciertos idiomas. Nuestro análisis profundo indica que los LMM líderes, incluyendo GPT-4o, sufren una degradación en el desempeño cuando se les presentan preguntas multimodales cruzadas entre idiomas, tales como imágenes con información textual clave en chino mientras la pregunta está en alemán. Creemos que M4U puede servir como una herramienta crucial para evaluar sistemáticamente los LMMs basados en sus capacidades de razonamiento multimodal multilingüe y monitorear su desarrollo. La página principal, códigos y datos están disponibles públicamente.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hongyu Wang
Jiayu Xu
Senwei Xie
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Fri,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6897cb6db643587611540 — DOI: https://doi.org/10.48550/arxiv.2405.15638
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: