Avec le développement des modèles de langage large multimodaux (MLLMs), l’évaluation des modèles multimodaux dans le contexte des problèmes mathématiques est devenue un domaine de recherche précieux. Le raisonnement mathématique multimodal visuel-textuel constitue un indicateur critique pour évaluer la compréhension et les capacités complexes de raisonnement quantitatif multi-étapes des MLLMs. Cependant, les benchmarks mathématiques multimodaux précédents n’ont pas suffisamment intégré les informations visuelles et textuelles. Pour combler cette lacune, nous avons proposé MathScape, un nouveau benchmark qui met l'accent sur la compréhension et l’application combinée des informations visuelles et textuelles. MathScape est conçu pour évaluer des scénarios de problèmes mathématiques basés sur des photos, en évaluant par une approche hiérarchique catégorielle la compréhension théorique et la capacité d’application des MLLMs. Nous réalisons une évaluation multidimensionnelle sur 11 MLLMs avancés, révélant que notre benchmark est difficile même pour les modèles les plus sophistiqués. En analysant les résultats, nous identifions les limites des MLLMs, offrant des perspectives précieuses pour améliorer leurs performances.
Building similarity graph...
Analyzing shared references across papers
Loading...
Minxuan Zhou
Hao Liang
Tianpeng Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (mer.) ont étudié cette question.
www.synapsesocial.com/papers/68e5c751b6db64358755d9d4 — DOI: https://doi.org/10.48550/arxiv.2408.07543
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: