May 24, 2024Open Access

M4U: Evaluando la comprensión y el razonamiento multilingüe para grandes modelos multimodales

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El razonamiento multimodal multilingüe es un componente central para alcanzar la inteligencia a nivel humano. Sin embargo, la mayoría de los benchmarks existentes para el razonamiento multimodal multilingüe tienen dificultades para diferenciar entre modelos con distintos niveles de desempeño; incluso modelos de lenguaje sin capacidades visuales pueden alcanzar fácilmente puntuaciones altas. Esto deja una evaluación exhaustiva de los principales modelos multimodales multilingües en gran medida sin explorar. En este trabajo, presentamos M4U, un benchmark novedoso y desafiante para evaluar la capacidad de comprensión y razonamiento multimodal multilingüe multidisciplinario. M4U contiene 8,931 muestras que cubren 64 disciplinas a lo largo de 16 subcampos en Ciencia, Ingeniería y Salud en chino, inglés y alemán. Usando M4U, realizamos evaluaciones extensas de 21 de los principales Modelos Multimodales Grandes (LMMs) y Modelos Grandes de Lenguaje (LLMs) con herramientas externas. Los resultados de la evaluación muestran que el modelo de última generación, GPT-4o, alcanza solo un 47.6% de precisión promedio en M4U. Además, observamos que los LMM líderes exhiben preferencias significativas por ciertos idiomas. Nuestro análisis profundo indica que los LMM líderes, incluyendo GPT-4o, sufren una degradación en el desempeño cuando se les presentan preguntas multimodales cruzadas entre idiomas, tales como imágenes con información textual clave en chino mientras la pregunta está en alemán. Creemos que M4U puede servir como una herramienta crucial para evaluar sistemáticamente los LMMs basados en sus capacidades de razonamiento multimodal multilingüe y monitorear su desarrollo. La página principal, códigos y datos están disponibles públicamente.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hongyu Wang

Jiayu Xu

Senwei Xie

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

M4U: Evaluando la comprensión y el razonamiento multilingüe para grandes modelos multimodales

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider