Multimodale große Sprachmodelle (MLLMs) haben aufgrund ihrer bemerkenswerten Fähigkeiten im Verstehen und Generieren bei visuellen Sprachaufgaben (z. B. visuelle Fragebeantwortung) breite Aufmerksamkeit bei Forschern erlangt. Allerdings machen die schnelle Aktualisierung des Wissens in der realen Welt das Offline-Training von MLLMs kostspielig, und bei nicht-stationären Datenströmen leiden MLLMs während des Lernens unter katastrophalem Vergessen. In diesem Artikel schlagen wir ein MLLMs-basiertes duales Momentum Mixture-of-Experts (CL-MoE)-Framework für kontinuierliche visuelle Fragebeantwortung (VQA) vor. Wir integrieren MLLMs mit kontinuierlichem Lernen, um das reichhaltige Allgemeinwissen in LLMs zu nutzen. Wir stellen eine Dual-Router MoE (RMoE)-Strategie vor, um die globalen und lokalen Experten mithilfe von Aufgaben- und Instanz-Routern auszuwählen, wodurch robust Gewichte für die am besten geeigneten Experten der Aufgabe zugewiesen werden. Anschließend entwerfen wir ein dynamisches Momentum MoE (MMoE), um die Parameter der Experten dynamisch basierend auf den Beziehungen zwischen Experten und Aufgaben/Instanzen zu aktualisieren, sodass das Modell neues Wissen aufnehmen und gleichzeitig bestehendes Wissen bewahren kann. Umfangreiche experimentelle Ergebnisse zeigen, dass unsere Methode leistungsstarke Ergebnisse bei 10 VQA-Aufgaben erzielt und die Effektivität unseres Ansatzes beweist.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tianyu Huai
Jie Zhou
Xingjiao Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Huai et al. (Sat,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68ecc715d1cc7436f7d189ff — DOI: https://doi.org/10.48550/arxiv.2503.00413
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: