Key points are not available for this paper at this time.
Ao aumentar os parâmetros do modelo mas ativá-los de forma esparsa durante a realização de uma tarefa, o uso da arquitetura de Mistura de Especialistas (MoE) melhora significativamente o desempenho dos Grandes Modelos de Linguagem (LLMs) sem aumentar o custo de inferência. No entanto, o consumo de memória devido ao número crescente de especialistas apresenta um desafio para a implantação desses modelos em muitos cenários reais. Nosso estudo empírico revela que alguns especialistas codificam conhecimentos redundantes durante o pré-treinamento. Assim, propomos um método de agrupamento e poda de especialistas similares para melhorar a eficiência dos parâmetros do modelo. Validamos a eficácia do nosso método podando dois modelos MoE de última geração, Mixtral-8x7B e Mixtral-8x22B. A avaliação mostra que nosso método supera outras técnicas de poda de modelos em uma variedade de tarefas de linguagem natural. Para facilitar pesquisas futuras, iremos liberar nosso código e os modelos MoE podados.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zeliang Zhang
Xiaodong Liu
Hao Cheng
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Sex,) estudaram esta questão.
www.synapsesocial.com/papers/68e6087cb6db64358759c5f8 — DOI: https://doi.org/10.48550/arxiv.2407.09590
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: