Neste artigo, propomos primeiramente os MoE-Adapters, uma estrutura de treinamento eficiente em parâmetros para aliviar problemas de esquecimento a longo prazo no aprendizado incremental com Modelos Visão-Linguagem (VLM). Nossos MoE-Adapters utilizam roteadores adicionados incrementalmente para ativar e integrar adaptadores especialistas exclusivos de um conjunto estático pré-definido de especialistas, permitindo que o CLIP pré-treinado se adapte eficientemente a novas tarefas. Para preservar a capacidade zero-shot do VLM, é introduzido um Seletor Automático Discriminativo de Distribuição (DDAS) que direciona automaticamente entradas dentro e fora da distribuição para os MoE-Adapters e para o CLIP original, respectivamente. Contudo, depender de um conjunto estático de especialistas e de um seletor de distribuição separado pode levar à redundância de parâmetros e aumento da complexidade do treinamento. Em resposta, estendemos a estrutura para MoE-Adapters++ ao introduzir adaptadores MoE dinâmicos, que permitem o envolvimento adaptativo dos especialistas durante o processo de aprendizado contínuo. Adicionalmente, propomos um Seletor Automático de Embedding Latente (LEAS) que incorpora a seleção de distribuição dentro do CLIP para criar uma arquitetura mais unificada. Experimentos extensivos em diversos contextos demonstram que o método proposto supera consistentemente abordagens anteriores de última geração, ao mesmo tempo que melhora a eficiência do treinamento.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jiazuo Yu
Zichen Huang
Yunzhi Zhuge
IEEE Transactions on Pattern Analysis and Machine Intelligence
Tsinghua University
Dalian University of Technology
University of Electronic Science and Technology of China
Building similarity graph...
Analyzing shared references across papers
Loading...
Yu et al. (Qua,) estudaram esta questão.
www.synapsesocial.com/papers/68a3633d0a429f7973329f0c — DOI: https://doi.org/10.1109/tpami.2025.3597942
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: