Key points are not available for this paper at this time.
Als Schlüsselelement in multimodalen großen Sprachmodellen (MLLMs) beeinflusst die Fähigkeit des visuellen Encoders erheblich das Verständnis von MLLMs für vielfältige Bildinhalte. Obwohl einige großskalige vortrainierte visuelle Encoder wie die Vision-Encoder in CLIP und DINOv2 vielversprechende Leistungen erbracht haben, stellten wir fest, dass es noch keinen einzigen visuellen Encoder gibt, der das Verständnis verschiedener Bildinhalte dominieren kann, z. B. erzielt der CLIP-Vision-Encoder herausragende Ergebnisse beim allgemeinen Bildverständnis, jedoch schlechte Leistungen bei Dokument- oder Diagramminhalten. Um die Verzerrung des CLIP-Vision-Encoders zu mildern, untersuchen wir zunächst das inhärente Verhalten verschiedener vortrainierter visueller Encoder und schlagen dann MoVA vor, ein leistungsfähiges und neuartiges MLLM, das aufgabenorientierte Vision-Experten adaptiv mit einem grob-zu-fein Mechanismus routet und fusioniert. In der grobkörnigen Phase entwerfen wir eine kontextbewusste Experten-Routing-Strategie, um dynamisch die am besten geeigneten Vision-Experten anhand der Benutzeranweisung, des Eingabebilds und der Expertise der Vision-Experten auszuwählen. Dies beruht auf der leistungsstarken Funktionsverständnisfähigkeit des großen Sprachmodells (LLM), das mit expertenroutender Low-Rank-Adaptation (LoRA) ausgestattet ist. In der feinkörnigen Phase führen wir sorgfältig den Mixture-of-Vision-Expert-Adapter (MoV-Adapter) ein, um aufgabenspezifisches Wissen von verschiedenen Experten zu extrahieren und zu fusionieren. Dieses grob-zu-fein Paradigma nutzt effektiv die Repräsentationen der Experten basierend auf multimodalem Kontext und Modelleigenschaften, was die Generalisierungsfähigkeit weiter verbessert. Wir führen umfangreiche Experimente durch, um die Wirksamkeit des vorgeschlagenen Ansatzes zu bewerten. Ohne jeglichen Schnickschnack kann MoVA signifikante Leistungssteigerungen gegenüber den aktuellen Methoden des Stands der Technik in einer breiten Palette herausfordernder multimodaler Benchmarks erzielen. Code und Modelle werden verfügbar sein unter https://github.com/TempleX98/MoVA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhuofan Zong
Bingqi Ma
D. Z. Shen
Building similarity graph...
Analyzing shared references across papers
Loading...
Zong et al. (Freitag,) untersuchten diese Frage.
www.synapsesocial.com/papers/68e6e65fb6db643587661813 — DOI: https://doi.org/10.48550/arxiv.2404.13046
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: