July 13, 2024Open Access

MaskMoE: Potencializando o Aprendizado ao Nível de Token via Máscara de Roteamento em Mistura de Especialistas

Key Points

Key points are not available for this paper at this time.

Abstract

Aumentar a capacidade do modelo aprimora suas capacidades, mas aumenta significativamente o custo computacional. Modelos de Mistura de Especialistas (MoEs) abordam isso permitindo que a capacidade do modelo escale sem aumentar substancialmente os custos de treinamento ou inferência. Apesar dos resultados promissores, modelos MoE enfrentam vários desafios. Principalmente, a dispersão dos tokens de treinamento entre múltiplos especialistas pode levar ao subajuste, particularmente para tokens infrequentes. Além disso, embora mecanismos fixos de roteamento possam mitigar esse problema, eles comprometem a diversidade das representações. Neste artigo, propomos MaskMoE, um método projetado para aprimorar o aprendizado ao nível de token utilizando uma técnica de máscara de roteamento dentro do modelo de Mistura de Especialistas. MaskMoE é capaz de manter a diversidade das representações enquanto alcança um treinamento mais abrangente. Resultados experimentais demonstram que nosso método supera modelos anteriores dominantes de Mistura de Especialistas tanto em perplexidade (PPL) quanto em tarefas downstream.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhenpeng Su

Zijia Lin

Xue Bai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MaskMoE: Potencializando o Aprendizado ao Nível de Token via Máscara de Roteamento em Mistura de Especialistas

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider