August 12, 2025

MoE-Adapters++ : Vers un apprentissage continu plus efficace des modèles vision-langage grâce à des adaptateurs Mixture-of-Experts dynamiques

Key Points

MoE-Adapters++ améliore l'efficacité de l'entraînement tout en réduisant l'oubli à long terme dans les modèles vision-langage.
La méthode intègre une implication dynamique des experts, renforçant les capacités d'adaptation du modèle à travers les tâches.
En utilisant un Sélecteur Automatique d'Encodage Latent, l'architecture oriente dynamiquement les entrées, simplifiant le processus d'apprentissage.
Les résultats empiriques indiquent une amélioration significative des performances par rapport aux approches actuelles à l'état de l'art.

Abstract

Dans cet article, nous proposons d'abord MoE-Adapters, un cadre d'entraînement à efficacité paramétrique visant à atténuer les problèmes d'oubli à long terme dans l'apprentissage incrémental avec les modèles vision-langage (VLM). Nos MoE-Adapters exploitent des routeurs ajoutés de manière incrémentale pour activer et intégrer des adaptateurs experts exclusifs issus d'un ensemble statique d'experts prédéfini, permettant à CLIP pré-entraîné de s'adapter efficacement à de nouvelles tâches. Pour préserver la capacité zéro-shot du VLM, un Sélecteur Automatique Discriminatif de Distribution (DDAS) est introduit, routant automatiquement les entrées en distribution et hors distribution vers les MoE-Adapters et le CLIP original, respectivement. Cependant, s'appuyer sur un ensemble expert statique et un sélecteur de distribution séparé peut entraîner une redondance des paramètres et une complexité d'entraînement accrue. En réponse, nous étendons davantage le cadre MoE-Adapters++ en introduisant des MoE-adaptateurs dynamiques, qui permettent une implication adaptative des experts durant le processus d'apprentissage continu. De plus, un Sélecteur Automatique d'Encodage Latent (LEAS) est proposé, incorporant la sélection de distribution au sein de CLIP pour créer une architecture plus unifiée. Des expériences étendues dans divers contextes démontrent que la méthode proposée surpasse systématiquement les approches précédentes à l'état de l'art tout en améliorant simultanément l'efficacité de l'entraînement.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiazuo Yu

Zichen Huang

Yunzhi Zhuge

Journals

IEEE Transactions on Pattern Analysis and Machine Intelligence

Actions

Institutions

Tsinghua University

Dalian University of Technology

University of Electronic Science and Technology of China

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoE-Adapters++ : Vers un apprentissage continu plus efficace des modèles vision-langage grâce à des adaptateurs Mixture-of-Experts dynamiques

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study