Key points are not available for this paper at this time.
Jüngste Fortschritte bei Multimodalen Large Language Models (LLMs) konzentrierten sich hauptsächlich auf die Skalierung durch Erhöhung der Text-Bild-Paar-Daten und Verbesserung der LLMs, um die Leistung bei multimodalen Aufgaben zu steigern. Diese Skalierungsansätze sind jedoch rechnerisch aufwendig und vernachlässigen die Bedeutung der Verbesserung der Modellfähigkeiten auf der Vision-Seite. Inspiriert von erfolgreichen Anwendungen des Mixture-of-Experts (MoE) in LLMs, die die Skalierbarkeit des Modells während des Trainings verbessern und dabei die Inferenzkosten auf dem Niveau kleinerer Modelle halten, schlagen wir CuMo vor. CuMo integriert Co-upcycled Top-K spärlich-gesteuerte Mixture-of-Experts-Blöcke sowohl im Vision-Encoder als auch im MLP-Connector, wodurch multimodale LLMs mit minimal zusätzlich aktivierten Parametern während der Inferenz verbessert werden. CuMo pre-trainiert zunächst die MLP-Blöcke und initialisiert dann jeden Experten im MoE-Block aus dem vortrainierten MLP-Block während der Phase des visuellen Instruction Tuning. Hilfsverluste werden verwendet, um eine ausgewogene Auslastung der Experten sicherzustellen. CuMo übertrifft den Stand der Technik bei multimodalen LLMs über verschiedene VQA- und Visual-Instruction-Following-Benchmarks hinweg, jeweils innerhalb jeder Modellgrößengruppe, und trainiert ausschließlich auf Open-Source-Datensätzen. Code und Modellgewichte von CuMo sind unter https://github.com/SHI-Labs/CuMo als Open Source verfügbar.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiachen Li
Xinyao Wang
Sijie Zhu
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Thu,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e6ada1b6db64358762fc59 — DOI: https://doi.org/10.48550/arxiv.2405.05949
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: