March 21, 2024Open Access

MathVerse: ¿Realmente Ve Tu LLM Multimodal los Diagramas en Problemas Visuales de Matemáticas?

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

El notable progreso de los Modelos de Lenguaje Grande Multimodal (MLLMs) ha atraído una atención sin precedentes, debido a su desempeño superior en contextos visuales. Sin embargo, sus capacidades en la resolución de problemas matemáticos visuales siguen siendo insuficientemente evaluadas y comprendidas. Investigamos los puntos de referencia actuales para incorporar contenido visual excesivo dentro de preguntas textuales, lo que potencialmente ayuda a los MLLMs a deducir respuestas sin interpretar verdaderamente los diagramas de entrada. Con este fin, presentamos MathVerse, un punto de referencia integral de matemáticas visuales diseñado para una evaluación equitativa y profunda de los MLLMs. Recopilamos meticulosamente 2,612 problemas matemáticos de alta calidad y múltiples materias con diagramas de fuentes públicamente disponibles. Cada problema es luego transformado por anotadores humanos en seis versiones distintas, cada una ofreciendo variados grados de contenido informativo en multimodalidad, contribuyendo a un total de 15 mil muestras de prueba. Este enfoque permite a MathVerse evaluar exhaustivamente si y cuánto pueden los MLLMs comprender verdaderamente los diagramas visuales para el razonamiento matemático. Además, proponemos una estrategia de evaluación en Cadena de Pensamiento (CoT) para una evaluación detallada de las respuestas. En lugar de juzgar simplemente como Verdadero o Falso, empleamos GPT-4(V) para extraer adaptativamente pasos cruciales de razonamiento y luego puntuar cada paso con un análisis detallado de errores, lo que puede revelar la calidad intermedia del razonamiento CoT de los MLLMs. Esperamos que el punto de referencia MathVerse proporcione perspectivas únicas para guiar el desarrollo futuro de los MLLMs. Página del proyecto: https://mathverse-cuhk.github.io

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Renrui Zhang

Dongzhi Jiang

Yichi Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MathVerse: ¿Realmente Ve Tu LLM Multimodal los Diagramas en Problemas Visuales de Matemáticas?

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider