Dans cet article, nous proposons d'abord MoE-Adapters, un cadre d'entraînement à efficacité paramétrique visant à atténuer les problèmes d'oubli à long terme dans l'apprentissage incrémental avec les modèles vision-langage (VLM). Nos MoE-Adapters exploitent des routeurs ajoutés de manière incrémentale pour activer et intégrer des adaptateurs experts exclusifs issus d'un ensemble statique d'experts prédéfini, permettant à CLIP pré-entraîné de s'adapter efficacement à de nouvelles tâches. Pour préserver la capacité zéro-shot du VLM, un Sélecteur Automatique Discriminatif de Distribution (DDAS) est introduit, routant automatiquement les entrées en distribution et hors distribution vers les MoE-Adapters et le CLIP original, respectivement. Cependant, s'appuyer sur un ensemble expert statique et un sélecteur de distribution séparé peut entraîner une redondance des paramètres et une complexité d'entraînement accrue. En réponse, nous étendons davantage le cadre MoE-Adapters++ en introduisant des MoE-adaptateurs dynamiques, qui permettent une implication adaptative des experts durant le processus d'apprentissage continu. De plus, un Sélecteur Automatique d'Encodage Latent (LEAS) est proposé, incorporant la sélection de distribution au sein de CLIP pour créer une architecture plus unifiée. Des expériences étendues dans divers contextes démontrent que la méthode proposée surpasse systématiquement les approches précédentes à l'état de l'art tout en améliorant simultanément l'efficacité de l'entraînement.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiazuo Yu
Zichen Huang
Yunzhi Zhuge
IEEE Transactions on Pattern Analysis and Machine Intelligence
Tsinghua University
Dalian University of Technology
University of Electronic Science and Technology of China
Building similarity graph...
Analyzing shared references across papers
Loading...
Yu et al. (mer.,) ont étudié cette question.
www.synapsesocial.com/papers/68a3633d0a429f7973329f0c — DOI: https://doi.org/10.1109/tpami.2025.3597942