July 12, 2024Open Access

Diversificando o Conhecimento Especializado para Poda Independente de Tarefa em Mistura Esparsa de Especialistas

Key Points

Key points are not available for this paper at this time.

Abstract

Ao aumentar os parâmetros do modelo mas ativá-los de forma esparsa durante a realização de uma tarefa, o uso da arquitetura de Mistura de Especialistas (MoE) melhora significativamente o desempenho dos Grandes Modelos de Linguagem (LLMs) sem aumentar o custo de inferência. No entanto, o consumo de memória devido ao número crescente de especialistas apresenta um desafio para a implantação desses modelos em muitos cenários reais. Nosso estudo empírico revela que alguns especialistas codificam conhecimentos redundantes durante o pré-treinamento. Assim, propomos um método de agrupamento e poda de especialistas similares para melhorar a eficiência dos parâmetros do modelo. Validamos a eficácia do nosso método podando dois modelos MoE de última geração, Mixtral-8x7B e Mixtral-8x22B. A avaliação mostra que nosso método supera outras técnicas de poda de modelos em uma variedade de tarefas de linguagem natural. Para facilitar pesquisas futuras, iremos liberar nosso código e os modelos MoE podados.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zeliang Zhang

Xiaodong Liu

Hao Cheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Diversificando o Conhecimento Especializado para Poda Independente de Tarefa em Mistura Esparsa de Especialistas

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider