Key points are not available for this paper at this time.
Mistura de Especialistas (MoE) oferece desempenho notável e eficiência computacional ao ativar seletivamente subconjuntos de parâmetros do modelo. Tradicionalmente, modelos MoE utilizam especialistas homogêneos, cada um com capacidade idêntica. Contudo, a variedade de complexidade nos dados de entrada requer especialistas com capacidades diversas, enquanto MoE homogêneo dificulta a especialização eficaz dos especialistas e a utilização eficiente dos parâmetros. Neste estudo, propomos uma nova Mistura Heterogênea de Especialistas (HMoE), onde especialistas diferem em tamanho e, portanto, possuem capacidades diversas. Essa heterogeneidade permite que especialistas mais especializados lidem de forma mais eficaz com diferentes complexidades de tokens. Para tratar o desequilíbrio na ativação dos especialistas, propomos um objetivo de treinamento inovador que incentiva a ativação frequente dos especialistas menores, melhorando a eficiência computacional e a utilização de parâmetros. Experimentos extensivos demonstram que HMoE alcança perda menor com menos parâmetros ativados e supera modelos MoE homogêneos convencionais em vários benchmarks de avaliação pré-treinamento. Os códigos serão liberados após a aceitação.
Building similarity graph...
Analyzing shared references across papers
Loading...
An Wang
Xingwu Sun
Ruobing Xie
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Ter,) estudaram esta questão.
www.synapsesocial.com/papers/68e5b9a9b6db643587551976 — DOI: https://doi.org/10.48550/arxiv.2408.10681
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: