July 11, 2024Open Access

MAVIS: Mathematisches Visuelles Instruction Tuning

Key Points

Key points are not available for this paper at this time.

Abstract

Multi-modale Large Language Models (MLLMs) sind kürzlich sowohl in der Wissenschaft als auch in der Industrie in den Fokus gerückt. Trotz ihrer Kompetenz in allgemeinen multimodalen Szenarien sind die Fähigkeiten zur mathematischen Problemlösung in visuellen Kontexten noch unzureichend erforscht. Wir identifizieren drei Schwerpunkte innerhalb von MLLMs, die verbessert werden müssen: visuelle Kodierung von mathematischen Diagrammen, Diagramm-Sprach-Ausrichtung und mathematische Schlussfolgerungsfähigkeiten. Dies macht einen dringenden Bedarf an groß angelegten, hochwertigen Daten und Trainingspipelines im Bereich der visuellen Mathematik deutlich. In diesem Papier schlagen wir MAVIS vor, das erste MAthematische VISuelle Instruction Tuning-Paradigma für MLLMs, das eine Reihe von mathematisch-visuellen Datensätzen und spezialisierten MLLMs beinhaltet. Mit Fokus auf die drei genannten Probleme umfasst MAVIS drei aufeinanderfolgende Trainingsphasen von Grund auf. Zunächst erstellen wir MAVIS-Caption mit 558K Diagramm-Beschriftungs-Paaren, um einen mathematisch spezialisierten Vision-Encoder (CLIP-Math) mittels kontrastivem Lernen feinzujustieren, speziell zur Verbesserung der visuellen Diagramm-Kodierung. Zweitens verwenden wir MAVIS-Caption zur Ausrichtung von CLIP-Math mit einem großen Sprachmodell (LLM) über eine Projektionsschicht, wodurch die Vision-Sprach-Ausrichtung in mathematischen Domänen verbessert wird. Drittens führen wir MAVIS-Instruct ein, das 900K sorgfältig gesammelte und annotierte visuelle Mathematikprobleme umfasst, welche zum abschließenden Instruction-Tuning des MLLM für robuste mathematische Schlussfolgerungskompetenzen dienen. In MAVIS-Instruct integrieren wir vollständige Chain-of-Thought (CoT) Begründungen für jedes Problem und minimieren Redundanzen im Text, damit sich das Modell stärker auf die visuellen Elemente konzentriert. Daten und Modelle werden veröffentlicht unter https://github.com/ZrrSkywalker/MAVIS

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Renrui Zhang

Xinyu Wei

Dongzhi Jiang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MAVIS: Mathematisches Visuelles Instruction Tuning

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study