June 24, 2024Open Access

LLaMA-MoE: Construindo Mistura-de-Especialistas a partir do LLaMA com Pré-treinamento Contínuo

Key Points

Key points are not available for this paper at this time.

Abstract

Mistura-de-Especialistas (MoE) tem ganhado popularidade crescente como um framework promissor para escalar grandes modelos de linguagem (LLMs). No entanto, treinar MoE do zero em uma configuração de larga escala ainda sofre com problemas de alta demanda por dados e instabilidade. Motivados por essa limitação, investigamos a construção de modelos MoE a partir de modelos densos de linguagem já existentes. Especificamente, baseado no conhecido modelo LLaMA-2 7B, obtemos um modelo MoE por: (1) Construção de Especialistas, que particiona os parâmetros das Redes Feed-Forward (FFNs) originais em múltiplos especialistas; (2) Pré-treinamento Contínuo, que treina adicionalmente o modelo MoE transformado e redes de gate adicionais. Neste artigo, exploramos de forma abrangente diferentes métodos para construção de especialistas e várias estratégias de amostragem de dados para o pré-treinamento contínuo. Após essas etapas, nossos modelos LLaMA-MoE conseguem manter habilidades linguísticas e direcionar os tokens de entrada para especialistas específicos com parte dos parâmetros ativados. Empiricamente, ao treinar com 200B tokens, os modelos LLaMA-MoE-3.5B superam significativamente modelos densos que possuem parâmetros de ativação semelhantes. Os códigos-fonte e modelos estão disponíveis em https://github.com/pjlab-sys4nlp/llama-moe.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tong Zhu

Xiaoye Qu

Daize Dong

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLaMA-MoE: Construindo Mistura-de-Especialistas a partir do LLaMA com Pré-treinamento Contínuo

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider