What type of study is this?

This is a Experimental Study study.

October 13, 2025Open Access

CL-MoE: Verbesserung multimodaler großer Sprachmodelle mit dualem Momentum Mixture-of-Experts für kontinuierliche visuelle Fragebeantwortung

Key Points

Die Methode erzielt state-of-the-art Ergebnisse bei 10 visuellen Fragebeantwortungsaufgaben und demonstriert damit ihre Effektivität.
Durch die Anwendung eines dualen Momentum Mixture-of-Experts-Frameworks kann das Modell neues Wissen besser adaptieren und gleichzeitig bestehende Expertise bewahren.
Die Integration von MLLMs mit kontinuierlichem Lernen adressiert Herausforderungen im Zusammenhang mit katastrophalem Vergessen bei nicht-stationären Datenströmen.
Mithilfe von Aufgaben- und Instanz-Routern weist das Framework dynamisch Gewichte den am besten geeigneten Experten für die jeweilige Aufgabe zu.

Abstract

Multimodale große Sprachmodelle (MLLMs) haben aufgrund ihrer bemerkenswerten Fähigkeiten im Verstehen und Generieren bei visuellen Sprachaufgaben (z. B. visuelle Fragebeantwortung) breite Aufmerksamkeit bei Forschern erlangt. Allerdings machen die schnelle Aktualisierung des Wissens in der realen Welt das Offline-Training von MLLMs kostspielig, und bei nicht-stationären Datenströmen leiden MLLMs während des Lernens unter katastrophalem Vergessen. In diesem Artikel schlagen wir ein MLLMs-basiertes duales Momentum Mixture-of-Experts (CL-MoE)-Framework für kontinuierliche visuelle Fragebeantwortung (VQA) vor. Wir integrieren MLLMs mit kontinuierlichem Lernen, um das reichhaltige Allgemeinwissen in LLMs zu nutzen. Wir stellen eine Dual-Router MoE (RMoE)-Strategie vor, um die globalen und lokalen Experten mithilfe von Aufgaben- und Instanz-Routern auszuwählen, wodurch robust Gewichte für die am besten geeigneten Experten der Aufgabe zugewiesen werden. Anschließend entwerfen wir ein dynamisches Momentum MoE (MMoE), um die Parameter der Experten dynamisch basierend auf den Beziehungen zwischen Experten und Aufgaben/Instanzen zu aktualisieren, sodass das Modell neues Wissen aufnehmen und gleichzeitig bestehendes Wissen bewahren kann. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode leistungsstarke Ergebnisse bei 10 VQA-Aufgaben erzielt und die Effektivität unseres Ansatzes beweist.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tianyu Huai

Jie Zhou

Xingjiao Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CL-MoE: Verbesserung multimodaler großer Sprachmodelle mit dualem Momentum Mixture-of-Experts für kontinuierliche visuelle Fragebeantwortung

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider