August 20, 2024Open Access

HMoE: Mistura Heterogênea de Especialistas para Modelagem de Linguagem

Key Points

Key points are not available for this paper at this time.

Abstract

Mistura de Especialistas (MoE) oferece desempenho notável e eficiência computacional ao ativar seletivamente subconjuntos de parâmetros do modelo. Tradicionalmente, modelos MoE utilizam especialistas homogêneos, cada um com capacidade idêntica. Contudo, a variedade de complexidade nos dados de entrada requer especialistas com capacidades diversas, enquanto MoE homogêneo dificulta a especialização eficaz dos especialistas e a utilização eficiente dos parâmetros. Neste estudo, propomos uma nova Mistura Heterogênea de Especialistas (HMoE), onde especialistas diferem em tamanho e, portanto, possuem capacidades diversas. Essa heterogeneidade permite que especialistas mais especializados lidem de forma mais eficaz com diferentes complexidades de tokens. Para tratar o desequilíbrio na ativação dos especialistas, propomos um objetivo de treinamento inovador que incentiva a ativação frequente dos especialistas menores, melhorando a eficiência computacional e a utilização de parâmetros. Experimentos extensivos demonstram que HMoE alcança perda menor com menos parâmetros ativados e supera modelos MoE homogêneos convencionais em vários benchmarks de avaliação pré-treinamento. Os códigos serão liberados após a aceitação.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

An Wang

Xingwu Sun

Ruobing Xie

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

HMoE: Mistura Heterogênea de Especialistas para Modelagem de Linguagem

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider