Key points are not available for this paper at this time.
Misturas Esparsas de Especialistas (SMoE) aumentam a capacidade do modelo sem aumentos significativos nos custos de treinamento e inferência, mas apresentam as seguintes duas questões: (1) Baixa ativação de especialistas, onde apenas um pequeno subconjunto de especialistas é ativado para otimização. (2) Falta de capacidades analíticas detalhadas para múltiplos conceitos semânticos em tokens individuais. Propomos a Mistura de Especialistas com Múltiplas Cabeças (MH-MoE), que emprega um mecanismo de múltiplas cabeças para dividir cada token em múltiplos sub-tokens. Esses sub-tokens são então atribuídos e processados por um conjunto diverso de especialistas em paralelo, e reintegrados perfeitamente na forma original do token. O mecanismo de múltiplas cabeças permite que o modelo atenda coletivamente a informações de vários espaços de representação entre diferentes especialistas, enquanto melhora significativamente a ativação dos especialistas, aprofundando o entendimento do contexto e aliviando o sobreajuste. Além disso, nosso MH-MoE é fácil de implementar e desacoplado de outros métodos de otimização SMoE, facilitando a integração com outros modelos SMoE para desempenho aprimorado. Resultados experimentais extensivos em três tarefas: modelagem de linguagem focada no inglês, modelagem multilíngue de linguagem e modelagem multi-modal mascarada, demonstram a eficácia do MH-MoE.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xun Wu
Shaohan Huang
Wenhui Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Terça-feira,) estudaram esta questão.
www.synapsesocial.com/papers/68e6df92b6db64358765af83 — DOI: https://doi.org/10.48550/arxiv.2404.15045
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: