Key points are not available for this paper at this time.
Modelos de Linguagem de Grande Escala Multi-modais (MLLMs) surgiram recentemente como um foco significativo na academia e na indústria. Apesar de sua proficiência em cenários multimodais gerais, as capacidades de resolução de problemas matemáticos em contextos visuais permanecem insuficientemente exploradas. Identificamos três áreas-chave dentro dos MLLMs que precisam ser melhoradas: codificação visual de diagramas matemáticos, alinhamento diagrama-linguagem e habilidades de raciocínio matemático. Isso evidencia a demanda urgente por dados de alta qualidade em grande escala e pipelines de treinamento em matemática visual. Neste artigo, propomos o MAVIS, o primeiro paradigma de ajuste de instrução visual matemática para MLLMs, envolvendo uma série de conjuntos de dados visuais matemáticos e MLLMs especializados. Focando nas três questões, o MAVIS contém três estágios progressivos de treinamento a partir do zero. Primeiro, selecionamos o MAVIS-Caption, composto por 558 mil pares diagrama-legenda, para ajustar um codificador de visão específico para matemática (CLIP-Math) por meio de aprendizado contrastivo, adaptado para melhorar a codificação visual de diagramas. Segundo, utilizamos o MAVIS-Caption para alinhar o CLIP-Math com um modelo de linguagem grande (LLM) por uma camada de projeção, aprimorando o alinhamento visão-linguagem em domínios matemáticos. Terceiro, introduzimos o MAVIS-Instruct, incluindo 900 mil problemas matemáticos visuais meticulosamente coletados e anotados, que são adotados para finalmente ajustar por instrução o MLLM para habilidades robustas de raciocínio matemático. No MAVIS-Instruct, incorporamos raciocínios completos em cadeia (CoT) para cada problema e minimizamos a redundância textual, concentrando assim o modelo nos elementos visuais. Dados e Modelos estão disponíveis em https://github.com/ZrrSkywalker/MAVIS
Building similarity graph...
Analyzing shared references across papers
Loading...
Renrui Zhang
Xinyu Wei
Dongzhi Jiang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Qui,) estudaram esta questão.
www.synapsesocial.com/papers/68e609ceb6db64358759d887 — DOI: https://doi.org/10.48550/arxiv.2407.08739