August 16, 2024Open Access

Math-PUMA : Alignement Multimodal Progressif Ascendant pour Améliorer le Raisonnement Mathématique

Key Points

Key points are not available for this paper at this time.

Abstract

Les Modèles de Langage Multimodaux de Grande Taille (MLLMs) excellent dans la résolution de problèmes mathématiques basés sur du texte, mais ils rencontrent des difficultés avec les diagrammes mathématiques car ils sont principalement entraînés sur des images de scènes naturelles. Pour les humains, les aides visuelles améliorent généralement la résolution de problèmes, mais les MLLMs performent moins bien à mesure que l'information passe de la modalité textuelle à la modalité visuelle. Ce déclin est principalement dû à leurs lacunes dans l'alignement des images et du texte. Pour relever ces défis, nous proposons Math-PUMA, une méthodologie centrée sur l'Alignement Multimodal Progressif Ascendant. Cette approche vise à améliorer les compétences de raisonnement mathématique des MLLMs à travers un processus d'entraînement en trois étapes, la deuxième étape étant celle de l'alignement critique. Nous renforçons d'abord les capacités de raisonnement mathématique du modèle linguistique avec un large ensemble de problèmes mathématiques textuels. Nous construisons ensuite un ensemble de données multimodal avec différents degrés d'information textuelle et visuelle, créant des paires de données en présentant chaque problème sous au moins deux formes. En tirant parti de la divergence de Kullback-Leibler (KL) des distributions de prédiction du prochain token pour aligner les modalités visuelle et textuelle, des capacités constantes de résolution de problèmes sont assurées. Enfin, nous utilisons l'ajustement par instruction multimodale pour les MLLMs avec des données multimodales de haute qualité. Les résultats expérimentaux sur plusieurs benchmarks de raisonnement mathématique démontrent que les MLLMs entraînés avec Math-PUMA surpassent la plupart des MLLMs open-source. Notre approche réduit efficacement l'écart de performance pour les problèmes présentés sous différentes modalités.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenwen Zhuang

Xin Huang

Xiantao Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Math-PUMA : Alignement Multimodal Progressif Ascendant pour Améliorer le Raisonnement Mathématique

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider