What question did this study set out to answer?

L’objectif est d’évaluer comment différents grands modèles de langage multimodaux traitent les problèmes mathématiques visuels et leurs stratégies de refus en l’absence d’images.

April 7, 2026Open Access

Voir, c'est résoudre : MLLMs, raisonnement et refus en mathématiques visuelles

Key Points

L’objectif est d’évaluer comment différents grands modèles de langage multimodaux traitent les problèmes mathématiques visuels et leurs stratégies de refus en l’absence d’images.
Évaluation de six grands modèles de langage multimodaux (trois avec raisonnement et trois sans) sur 376 items d’Illustrative Mathematics.
Classification des problèmes selon la présence d’informations visuelles critiques non dérivables uniquement du texte.
Chaque modèle a tenté chaque problème trois fois avec et sans figures associées sous des protocoles de notation standardisés.
Les meilleurs modèles de raisonnement ont atteint environ 55 % de précision avec images, tandis que les modèles sans raisonnement ont obtenu entre 35 % et un peu plus de 40 %.
Sans images, les modèles ont majoritairement refusé de répondre plutôt que de deviner, avec très peu de bonnes réponses par hasard.
La mauvaise lecture visuelle était la principale cause d’échec des modèles sans raisonnement, tandis que les modèles de raisonnement fournissaient plus de réponses correctes avec explications.

Abstract

De nombreux problèmes de mathématiques au collège dépendent des images : le diagramme ou le graphique contient des informations essentielles. Cela est crucial pour le tutorat intelligent et l'accessibilité, où les systèmes doivent raisonner sur les figures et aussi refuser de répondre de manière responsable lorsque les figures manquent. Nous évaluons six modèles contemporains de grands modèles de langage multimodaux (MLLMs) — trois modèles de raisonnement et trois modèles sans raisonnement — sur 376 items d'Illustrative Mathematics (IM) étiquetés « image-role Required » (la figure contient une information cruciale pour la tâche non récupérable uniquement par le texte sans hypothèses supplémentaires). Chaque modèle tente chaque item trois fois avec et sans la figure sous un protocole commun d'invite et de notation. Pour réduire la subjectivité de l’étiquette image-role, nous classifions les items comme non requis lorsqu'ils sont résolubles uniquement à partir du texte sans hypothèses supplémentaires. Avec les images, les meilleurs modèles de raisonnement atteignent une précision d'environ 55 %, tandis que les modèles sans raisonnement se situent entre 35 % et un peu plus de 40 %. Sans images, les modèles refusent massivement plutôt que de deviner, avec seulement de rares bonnes réponses dues au hasard. Les modèles montrent un accord modéré sur les items résolubles, et nous publions deux sous-ensembles de référence d'items résolus de manière cohérente à travers les modèles. Un audit qualitatif de 83 items montre que la principale cause d’échec des modèles sans raisonnement est la mauvaise lecture visuelle, tandis que les modèles de raisonnement génèrent plus souvent des réponses correctes accompagnées d’explications adéquates. Ces résultats suggèrent que les systèmes de tutorat devraient conditionner la notation automatique et la mise à jour du modèle d’apprenant à la disponibilité des preuves visuelles et utiliser des structures exigeant une liaison explicite des preuves visuelles avant l’algèbre. Pour l’accessibilité, les systèmes devraient traiter les refus sans image comme des signaux de contexte manquant et solliciter la figure ou une description structurée, permettant des expériences de substitution par description. Nous publions le code, les invites et les synthèses pour réplication. Code et données : https://osf.io/ct7bg/

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ethan Croteau

Neil T. Heffernan

Actions

Institutions

Worcester Polytechnic Institute

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Voir, c'est résoudre : MLLMs, raisonnement et refus en mathématiques visuelles

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider