April 19, 2024Open Access

MoVA: Anpassung von Mixture of Vision Experts an multimodalen Kontext

Key Points

Key points are not available for this paper at this time.

Abstract

Als Schlüsselelement in multimodalen großen Sprachmodellen (MLLMs) beeinflusst die Fähigkeit des visuellen Encoders erheblich das Verständnis von MLLMs für vielfältige Bildinhalte. Obwohl einige großskalige vortrainierte visuelle Encoder wie die Vision-Encoder in CLIP und DINOv2 vielversprechende Leistungen erbracht haben, stellten wir fest, dass es noch keinen einzigen visuellen Encoder gibt, der das Verständnis verschiedener Bildinhalte dominieren kann, z. B. erzielt der CLIP-Vision-Encoder herausragende Ergebnisse beim allgemeinen Bildverständnis, jedoch schlechte Leistungen bei Dokument- oder Diagramminhalten. Um die Verzerrung des CLIP-Vision-Encoders zu mildern, untersuchen wir zunächst das inhärente Verhalten verschiedener vortrainierter visueller Encoder und schlagen dann MoVA vor, ein leistungsfähiges und neuartiges MLLM, das aufgabenorientierte Vision-Experten adaptiv mit einem grob-zu-fein Mechanismus routet und fusioniert. In der grobkörnigen Phase entwerfen wir eine kontextbewusste Experten-Routing-Strategie, um dynamisch die am besten geeigneten Vision-Experten anhand der Benutzeranweisung, des Eingabebilds und der Expertise der Vision-Experten auszuwählen. Dies beruht auf der leistungsstarken Funktionsverständnisfähigkeit des großen Sprachmodells (LLM), das mit expertenroutender Low-Rank-Adaptation (LoRA) ausgestattet ist. In der feinkörnigen Phase führen wir sorgfältig den Mixture-of-Vision-Expert-Adapter (MoV-Adapter) ein, um aufgabenspezifisches Wissen von verschiedenen Experten zu extrahieren und zu fusionieren. Dieses grob-zu-fein Paradigma nutzt effektiv die Repräsentationen der Experten basierend auf multimodalem Kontext und Modelleigenschaften, was die Generalisierungsfähigkeit weiter verbessert. Wir führen umfangreiche Experimente durch, um die Wirksamkeit des vorgeschlagenen Ansatzes zu bewerten. Ohne jeglichen Schnickschnack kann MoVA signifikante Leistungssteigerungen gegenüber den aktuellen Methoden des Stands der Technik in einer breiten Palette herausfordernder multimodaler Benchmarks erzielen. Code und Modelle werden verfügbar sein unter https://github.com/TempleX98/MoVA.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhuofan Zong

Bingqi Ma

D. Z. Shen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoVA: Anpassung von Mixture of Vision Experts an multimodalen Kontext

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider