Key points are not available for this paper at this time.
Les Modèles de Langage Multimodaux de Grande Taille (MLLMs) excellent dans la résolution de problèmes mathématiques basés sur du texte, mais ils rencontrent des difficultés avec les diagrammes mathématiques car ils sont principalement entraînés sur des images de scènes naturelles. Pour les humains, les aides visuelles améliorent généralement la résolution de problèmes, mais les MLLMs performent moins bien à mesure que l'information passe de la modalité textuelle à la modalité visuelle. Ce déclin est principalement dû à leurs lacunes dans l'alignement des images et du texte. Pour relever ces défis, nous proposons Math-PUMA, une méthodologie centrée sur l'Alignement Multimodal Progressif Ascendant. Cette approche vise à améliorer les compétences de raisonnement mathématique des MLLMs à travers un processus d'entraînement en trois étapes, la deuxième étape étant celle de l'alignement critique. Nous renforçons d'abord les capacités de raisonnement mathématique du modèle linguistique avec un large ensemble de problèmes mathématiques textuels. Nous construisons ensuite un ensemble de données multimodal avec différents degrés d'information textuelle et visuelle, créant des paires de données en présentant chaque problème sous au moins deux formes. En tirant parti de la divergence de Kullback-Leibler (KL) des distributions de prédiction du prochain token pour aligner les modalités visuelle et textuelle, des capacités constantes de résolution de problèmes sont assurées. Enfin, nous utilisons l'ajustement par instruction multimodale pour les MLLMs avec des données multimodales de haute qualité. Les résultats expérimentaux sur plusieurs benchmarks de raisonnement mathématique démontrent que les MLLMs entraînés avec Math-PUMA surpassent la plupart des MLLMs open-source. Notre approche réduit efficacement l'écart de performance pour les problèmes présentés sous différentes modalités.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenwen Zhuang
Xin Huang
Xiantao Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhuang et al. (ven.), ont étudié cette question.
www.synapsesocial.com/papers/68e5bfa3b6db6435875573e2 — DOI: https://doi.org/10.48550/arxiv.2408.08640
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: