August 16, 2024Open Access

Math-PUMA: Alinhamento Multimodal Progressivo para Melhorar o Raciocínio Matemático

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos Multimodais de Linguagem de Grande Escala (MLLMs) se destacam na resolução de problemas matemáticos baseados em texto, mas têm dificuldades com diagramas matemáticos, pois são treinados principalmente em imagens de cenas naturais. Para os humanos, auxiliares visuais geralmente melhoram a resolução de problemas, mas os MLLMs apresentam desempenho pior à medida que a informação muda da modalidade textual para a visual. Essa queda ocorre principalmente devido às suas limitações no alinhamento entre imagens e texto. Para enfrentar esses desafios, propomos Math-PUMA, uma metodologia focada no Alinhamento Multimodal Progressivo. Essa abordagem visa aprimorar as habilidades de raciocínio matemático dos MLLMs através de um processo de treinamento em três etapas, sendo a segunda etapa crítica para o alinhamento. Primeiro, aprimoramos as capacidades de raciocínio matemático do modelo de linguagem com um conjunto extenso de problemas matemáticos textuais. Em seguida, construímos um conjunto de dados multimodal com graus variados de informação textual e visual, criando pares de dados ao apresentar cada problema em pelo menos duas formas. Aproveitando a divergência de Kullback-Leibler (KL) das distribuições de predição do próximo token para alinhar as modalidades visual e textual, garantimos habilidades consistentes de resolução de problemas. Finalmente, utilizamos ajuste instrucional multimodal para os MLLMs com dados multimodais de alta qualidade. Resultados experimentais em múltiplos benchmarks de raciocínio matemático demonstram que os MLLMs treinados com Math-PUMA superam a maioria dos MLLMs de código aberto. Nossa abordagem reduz de forma eficaz a lacuna de desempenho para problemas apresentados em diferentes modalidades.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Wenwen Zhuang

Xin Huang

Xiantao Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Math-PUMA: Alinhamento Multimodal Progressivo para Melhorar o Raciocínio Matemático

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider