Los puntos clave no están disponibles para este artículo en este momento.
El notable progreso de los Modelos de Lenguaje Grande Multimodal (MLLMs) ha atraído una atención sin precedentes, debido a su desempeño superior en contextos visuales. Sin embargo, sus capacidades en la resolución de problemas matemáticos visuales siguen siendo insuficientemente evaluadas y comprendidas. Investigamos los puntos de referencia actuales para incorporar contenido visual excesivo dentro de preguntas textuales, lo que potencialmente ayuda a los MLLMs a deducir respuestas sin interpretar verdaderamente los diagramas de entrada. Con este fin, presentamos MathVerse, un punto de referencia integral de matemáticas visuales diseñado para una evaluación equitativa y profunda de los MLLMs. Recopilamos meticulosamente 2,612 problemas matemáticos de alta calidad y múltiples materias con diagramas de fuentes públicamente disponibles. Cada problema es luego transformado por anotadores humanos en seis versiones distintas, cada una ofreciendo variados grados de contenido informativo en multimodalidad, contribuyendo a un total de 15 mil muestras de prueba. Este enfoque permite a MathVerse evaluar exhaustivamente si y cuánto pueden los MLLMs comprender verdaderamente los diagramas visuales para el razonamiento matemático. Además, proponemos una estrategia de evaluación en Cadena de Pensamiento (CoT) para una evaluación detallada de las respuestas. En lugar de juzgar simplemente como Verdadero o Falso, empleamos GPT-4(V) para extraer adaptativamente pasos cruciales de razonamiento y luego puntuar cada paso con un análisis detallado de errores, lo que puede revelar la calidad intermedia del razonamiento CoT de los MLLMs. Esperamos que el punto de referencia MathVerse proporcione perspectivas únicas para guiar el desarrollo futuro de los MLLMs. Página del proyecto: https://mathverse-cuhk.github.io
Building similarity graph...
Analyzing shared references across papers
Loading...
Renrui Zhang
Dongzhi Jiang
Yichi Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Thu,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e73091b6db6435876a9edb — DOI: https://doi.org/10.48550/arxiv.2403.14624
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: