August 12, 2025

MoE-Adapters++: Rumo a um Aprendizado Contínuo Mais Eficiente de Modelos Visão-Linguagem via Adaptadores de Mistura Dinâmica de Especialistas

Key Points

MoE-Adapters++ melhora a eficiência do treinamento enquanto reduz o esquecimento a longo prazo em modelos visão-linguagem.
O método integra o envolvimento dinâmico dos especialistas, aprimorando a capacidade de adaptação do modelo em múltiplas tarefas.
Utilizando um Seletor Automático de Embedding Latente, a arquitetura direciona entradas dinamicamente, simplificando o processo de aprendizado.
Resultados empíricos indicam um aumento significativo de desempenho em comparação com abordagens existentes de última geração.

Abstract

Neste artigo, propomos primeiramente os MoE-Adapters, uma estrutura de treinamento eficiente em parâmetros para aliviar problemas de esquecimento a longo prazo no aprendizado incremental com Modelos Visão-Linguagem (VLM). Nossos MoE-Adapters utilizam roteadores adicionados incrementalmente para ativar e integrar adaptadores especialistas exclusivos de um conjunto estático pré-definido de especialistas, permitindo que o CLIP pré-treinado se adapte eficientemente a novas tarefas. Para preservar a capacidade zero-shot do VLM, é introduzido um Seletor Automático Discriminativo de Distribuição (DDAS) que direciona automaticamente entradas dentro e fora da distribuição para os MoE-Adapters e para o CLIP original, respectivamente. Contudo, depender de um conjunto estático de especialistas e de um seletor de distribuição separado pode levar à redundância de parâmetros e aumento da complexidade do treinamento. Em resposta, estendemos a estrutura para MoE-Adapters++ ao introduzir adaptadores MoE dinâmicos, que permitem o envolvimento adaptativo dos especialistas durante o processo de aprendizado contínuo. Adicionalmente, propomos um Seletor Automático de Embedding Latente (LEAS) que incorpora a seleção de distribuição dentro do CLIP para criar uma arquitetura mais unificada. Experimentos extensivos em diversos contextos demonstram que o método proposto supera consistentemente abordagens anteriores de última geração, ao mesmo tempo que melhora a eficiência do treinamento.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jiazuo Yu

Zichen Huang

Yunzhi Zhuge

Journals

IEEE Transactions on Pattern Analysis and Machine Intelligence

Actions

Institutions

Tsinghua University

Dalian University of Technology

University of Electronic Science and Technology of China

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoE-Adapters++: Rumo a um Aprendizado Contínuo Mais Eficiente de Modelos Visão-Linguagem via Adaptadores de Mistura Dinâmica de Especialistas

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider