De nombreux problèmes de mathématiques au collège dépendent des images : le diagramme ou le graphique contient des informations essentielles. Cela est crucial pour le tutorat intelligent et l'accessibilité, où les systèmes doivent raisonner sur les figures et aussi refuser de répondre de manière responsable lorsque les figures manquent. Nous évaluons six modèles contemporains de grands modèles de langage multimodaux (MLLMs) — trois modèles de raisonnement et trois modèles sans raisonnement — sur 376 items d'Illustrative Mathematics (IM) étiquetés « image-role Required » (la figure contient une information cruciale pour la tâche non récupérable uniquement par le texte sans hypothèses supplémentaires). Chaque modèle tente chaque item trois fois avec et sans la figure sous un protocole commun d'invite et de notation. Pour réduire la subjectivité de l’étiquette image-role, nous classifions les items comme non requis lorsqu'ils sont résolubles uniquement à partir du texte sans hypothèses supplémentaires. Avec les images, les meilleurs modèles de raisonnement atteignent une précision d'environ 55 %, tandis que les modèles sans raisonnement se situent entre 35 % et un peu plus de 40 %. Sans images, les modèles refusent massivement plutôt que de deviner, avec seulement de rares bonnes réponses dues au hasard. Les modèles montrent un accord modéré sur les items résolubles, et nous publions deux sous-ensembles de référence d'items résolus de manière cohérente à travers les modèles. Un audit qualitatif de 83 items montre que la principale cause d’échec des modèles sans raisonnement est la mauvaise lecture visuelle, tandis que les modèles de raisonnement génèrent plus souvent des réponses correctes accompagnées d’explications adéquates. Ces résultats suggèrent que les systèmes de tutorat devraient conditionner la notation automatique et la mise à jour du modèle d’apprenant à la disponibilité des preuves visuelles et utiliser des structures exigeant une liaison explicite des preuves visuelles avant l’algèbre. Pour l’accessibilité, les systèmes devraient traiter les refus sans image comme des signaux de contexte manquant et solliciter la figure ou une description structurée, permettant des expériences de substitution par description. Nous publions le code, les invites et les synthèses pour réplication. Code et données : https://osf.io/ct7bg/
Building similarity graph...
Analyzing shared references across papers
Loading...
Ethan Croteau
Neil T. Heffernan
Worcester Polytechnic Institute
Building similarity graph...
Analyzing shared references across papers
Loading...
Croteau et al. (Samedi,) ont étudié cette question.
www.synapsesocial.com/papers/69d49fa9b33cc4c35a2280db — DOI: https://doi.org/10.5281/zenodo.19420819
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: