July 11, 2024Open Access

MAVIS: Ajuste de Instrução Visual Matemática

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de Linguagem de Grande Escala Multi-modais (MLLMs) surgiram recentemente como um foco significativo na academia e na indústria. Apesar de sua proficiência em cenários multimodais gerais, as capacidades de resolução de problemas matemáticos em contextos visuais permanecem insuficientemente exploradas. Identificamos três áreas-chave dentro dos MLLMs que precisam ser melhoradas: codificação visual de diagramas matemáticos, alinhamento diagrama-linguagem e habilidades de raciocínio matemático. Isso evidencia a demanda urgente por dados de alta qualidade em grande escala e pipelines de treinamento em matemática visual. Neste artigo, propomos o MAVIS, o primeiro paradigma de ajuste de instrução visual matemática para MLLMs, envolvendo uma série de conjuntos de dados visuais matemáticos e MLLMs especializados. Focando nas três questões, o MAVIS contém três estágios progressivos de treinamento a partir do zero. Primeiro, selecionamos o MAVIS-Caption, composto por 558 mil pares diagrama-legenda, para ajustar um codificador de visão específico para matemática (CLIP-Math) por meio de aprendizado contrastivo, adaptado para melhorar a codificação visual de diagramas. Segundo, utilizamos o MAVIS-Caption para alinhar o CLIP-Math com um modelo de linguagem grande (LLM) por uma camada de projeção, aprimorando o alinhamento visão-linguagem em domínios matemáticos. Terceiro, introduzimos o MAVIS-Instruct, incluindo 900 mil problemas matemáticos visuais meticulosamente coletados e anotados, que são adotados para finalmente ajustar por instrução o MLLM para habilidades robustas de raciocínio matemático. No MAVIS-Instruct, incorporamos raciocínios completos em cadeia (CoT) para cada problema e minimizamos a redundância textual, concentrando assim o modelo nos elementos visuais. Dados e Modelos estão disponíveis em https://github.com/ZrrSkywalker/MAVIS

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Renrui Zhang

Xinyu Wei

Dongzhi Jiang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MAVIS: Ajuste de Instrução Visual Matemática

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study