May 9, 2024Open Access

CuMo: Skalierung von Multimodalen LLM mit Co-Upcycled Mixture-of-Experts

Key Points

Key points are not available for this paper at this time.

Abstract

Jüngste Fortschritte bei Multimodalen Large Language Models (LLMs) konzentrierten sich hauptsächlich auf die Skalierung durch Erhöhung der Text-Bild-Paar-Daten und Verbesserung der LLMs, um die Leistung bei multimodalen Aufgaben zu steigern. Diese Skalierungsansätze sind jedoch rechnerisch aufwendig und vernachlässigen die Bedeutung der Verbesserung der Modellfähigkeiten auf der Vision-Seite. Inspiriert von erfolgreichen Anwendungen des Mixture-of-Experts (MoE) in LLMs, die die Skalierbarkeit des Modells während des Trainings verbessern und dabei die Inferenzkosten auf dem Niveau kleinerer Modelle halten, schlagen wir CuMo vor. CuMo integriert Co-upcycled Top-K spärlich-gesteuerte Mixture-of-Experts-Blöcke sowohl im Vision-Encoder als auch im MLP-Connector, wodurch multimodale LLMs mit minimal zusätzlich aktivierten Parametern während der Inferenz verbessert werden. CuMo pre-trainiert zunächst die MLP-Blöcke und initialisiert dann jeden Experten im MoE-Block aus dem vortrainierten MLP-Block während der Phase des visuellen Instruction Tuning. Hilfsverluste werden verwendet, um eine ausgewogene Auslastung der Experten sicherzustellen. CuMo übertrifft den Stand der Technik bei multimodalen LLMs über verschiedene VQA- und Visual-Instruction-Following-Benchmarks hinweg, jeweils innerhalb jeder Modellgrößengruppe, und trainiert ausschließlich auf Open-Source-Datensätzen. Code und Modellgewichte von CuMo sind unter https://github.com/SHI-Labs/CuMo als Open Source verfügbar.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiachen Li

Xinyao Wang

Sijie Zhu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CuMo: Skalierung von Multimodalen LLM mit Co-Upcycled Mixture-of-Experts

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider