Key points are not available for this paper at this time.
Modelos Multimodais de Linguagem de Grande Escala (MLLMs) se destacam na resolução de problemas matemáticos baseados em texto, mas têm dificuldades com diagramas matemáticos, pois são treinados principalmente em imagens de cenas naturais. Para os humanos, auxiliares visuais geralmente melhoram a resolução de problemas, mas os MLLMs apresentam desempenho pior à medida que a informação muda da modalidade textual para a visual. Essa queda ocorre principalmente devido às suas limitações no alinhamento entre imagens e texto. Para enfrentar esses desafios, propomos Math-PUMA, uma metodologia focada no Alinhamento Multimodal Progressivo. Essa abordagem visa aprimorar as habilidades de raciocínio matemático dos MLLMs através de um processo de treinamento em três etapas, sendo a segunda etapa crítica para o alinhamento. Primeiro, aprimoramos as capacidades de raciocínio matemático do modelo de linguagem com um conjunto extenso de problemas matemáticos textuais. Em seguida, construímos um conjunto de dados multimodal com graus variados de informação textual e visual, criando pares de dados ao apresentar cada problema em pelo menos duas formas. Aproveitando a divergência de Kullback-Leibler (KL) das distribuições de predição do próximo token para alinhar as modalidades visual e textual, garantimos habilidades consistentes de resolução de problemas. Finalmente, utilizamos ajuste instrucional multimodal para os MLLMs com dados multimodais de alta qualidade. Resultados experimentais em múltiplos benchmarks de raciocínio matemático demonstram que os MLLMs treinados com Math-PUMA superam a maioria dos MLLMs de código aberto. Nossa abordagem reduz de forma eficaz a lacuna de desempenho para problemas apresentados em diferentes modalidades.
Building similarity graph...
Analyzing shared references across papers
Loading...
Wenwen Zhuang
Xin Huang
Xiantao Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhuang et al. (sex,) estudaram essa questão.
www.synapsesocial.com/papers/68e5bfa3b6db6435875573e2 — DOI: https://doi.org/10.48550/arxiv.2408.08640
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: