August 14, 2024Open Access

MathScape : Évaluation des MLLMs dans des scénarios mathématiques multimodaux via un benchmark hiérarchique

Key Points

Le benchmark MathScape révèle que les MLLMs ont globalement eu des difficultés avec les tâches de raisonnement mathématique multimodal, indiquant des lacunes de performance.
Plus précisément, le raisonnement quantitatif complexe multi-étapes s’est avéré difficile pour les modèles évalués malgré leur sophistication.
L’évaluation avec une approche hiérarchique sur 11 MLLMs avancés met en lumière le besoin d’une meilleure intégration des informations visuelles et textuelles dans les évaluations. Cela conduit à des insights importants sur les limites et les axes d’amélioration des capacités des MLLMs pour la résolution de problèmes mathématiques dans des scénarios divers.

Abstract

Avec le développement des modèles de langage large multimodaux (MLLMs), l’évaluation des modèles multimodaux dans le contexte des problèmes mathématiques est devenue un domaine de recherche précieux. Le raisonnement mathématique multimodal visuel-textuel constitue un indicateur critique pour évaluer la compréhension et les capacités complexes de raisonnement quantitatif multi-étapes des MLLMs. Cependant, les benchmarks mathématiques multimodaux précédents n’ont pas suffisamment intégré les informations visuelles et textuelles. Pour combler cette lacune, nous avons proposé MathScape, un nouveau benchmark qui met l'accent sur la compréhension et l’application combinée des informations visuelles et textuelles. MathScape est conçu pour évaluer des scénarios de problèmes mathématiques basés sur des photos, en évaluant par une approche hiérarchique catégorielle la compréhension théorique et la capacité d’application des MLLMs. Nous réalisons une évaluation multidimensionnelle sur 11 MLLMs avancés, révélant que notre benchmark est difficile même pour les modèles les plus sophistiqués. En analysant les résultats, nous identifions les limites des MLLMs, offrant des perspectives précieuses pour améliorer leurs performances.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Minxuan Zhou

Hao Liang

Tianpeng Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MathScape : Évaluation des MLLMs dans des scénarios mathématiques multimodaux via un benchmark hiérarchique

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider