April 23, 2024Open Access

Mistura de Especialistas com Múltiplas Cabeças

Key Points

Key points are not available for this paper at this time.

Abstract

Misturas Esparsas de Especialistas (SMoE) aumentam a capacidade do modelo sem aumentos significativos nos custos de treinamento e inferência, mas apresentam as seguintes duas questões: (1) Baixa ativação de especialistas, onde apenas um pequeno subconjunto de especialistas é ativado para otimização. (2) Falta de capacidades analíticas detalhadas para múltiplos conceitos semânticos em tokens individuais. Propomos a Mistura de Especialistas com Múltiplas Cabeças (MH-MoE), que emprega um mecanismo de múltiplas cabeças para dividir cada token em múltiplos sub-tokens. Esses sub-tokens são então atribuídos e processados por um conjunto diverso de especialistas em paralelo, e reintegrados perfeitamente na forma original do token. O mecanismo de múltiplas cabeças permite que o modelo atenda coletivamente a informações de vários espaços de representação entre diferentes especialistas, enquanto melhora significativamente a ativação dos especialistas, aprofundando o entendimento do contexto e aliviando o sobreajuste. Além disso, nosso MH-MoE é fácil de implementar e desacoplado de outros métodos de otimização SMoE, facilitando a integração com outros modelos SMoE para desempenho aprimorado. Resultados experimentais extensivos em três tarefas: modelagem de linguagem focada no inglês, modelagem multilíngue de linguagem e modelagem multi-modal mascarada, demonstram a eficácia do MH-MoE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xun Wu

Shaohan Huang

Wenhui Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mistura de Especialistas com Múltiplas Cabeças

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider