Key points are not available for this paper at this time.
Multi-modale Large Language Models (MLLMs) sind kürzlich sowohl in der Wissenschaft als auch in der Industrie in den Fokus gerückt. Trotz ihrer Kompetenz in allgemeinen multimodalen Szenarien sind die Fähigkeiten zur mathematischen Problemlösung in visuellen Kontexten noch unzureichend erforscht. Wir identifizieren drei Schwerpunkte innerhalb von MLLMs, die verbessert werden müssen: visuelle Kodierung von mathematischen Diagrammen, Diagramm-Sprach-Ausrichtung und mathematische Schlussfolgerungsfähigkeiten. Dies macht einen dringenden Bedarf an groß angelegten, hochwertigen Daten und Trainingspipelines im Bereich der visuellen Mathematik deutlich. In diesem Papier schlagen wir MAVIS vor, das erste MAthematische VISuelle Instruction Tuning-Paradigma für MLLMs, das eine Reihe von mathematisch-visuellen Datensätzen und spezialisierten MLLMs beinhaltet. Mit Fokus auf die drei genannten Probleme umfasst MAVIS drei aufeinanderfolgende Trainingsphasen von Grund auf. Zunächst erstellen wir MAVIS-Caption mit 558K Diagramm-Beschriftungs-Paaren, um einen mathematisch spezialisierten Vision-Encoder (CLIP-Math) mittels kontrastivem Lernen feinzujustieren, speziell zur Verbesserung der visuellen Diagramm-Kodierung. Zweitens verwenden wir MAVIS-Caption zur Ausrichtung von CLIP-Math mit einem großen Sprachmodell (LLM) über eine Projektionsschicht, wodurch die Vision-Sprach-Ausrichtung in mathematischen Domänen verbessert wird. Drittens führen wir MAVIS-Instruct ein, das 900K sorgfältig gesammelte und annotierte visuelle Mathematikprobleme umfasst, welche zum abschließenden Instruction-Tuning des MLLM für robuste mathematische Schlussfolgerungskompetenzen dienen. In MAVIS-Instruct integrieren wir vollständige Chain-of-Thought (CoT) Begründungen für jedes Problem und minimieren Redundanzen im Text, damit sich das Modell stärker auf die visuellen Elemente konzentriert. Daten und Modelle werden veröffentlicht unter https://github.com/ZrrSkywalker/MAVIS
Building similarity graph...
Analyzing shared references across papers
Loading...
Renrui Zhang
Xinyu Wei
Dongzhi Jiang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e609ceb6db64358759d887 — DOI: https://doi.org/10.48550/arxiv.2407.08739