Key points are not available for this paper at this time.
Mistura-de-Especialistas (MoE) tem ganhado popularidade crescente como um framework promissor para escalar grandes modelos de linguagem (LLMs). No entanto, treinar MoE do zero em uma configuração de larga escala ainda sofre com problemas de alta demanda por dados e instabilidade. Motivados por essa limitação, investigamos a construção de modelos MoE a partir de modelos densos de linguagem já existentes. Especificamente, baseado no conhecido modelo LLaMA-2 7B, obtemos um modelo MoE por: (1) Construção de Especialistas, que particiona os parâmetros das Redes Feed-Forward (FFNs) originais em múltiplos especialistas; (2) Pré-treinamento Contínuo, que treina adicionalmente o modelo MoE transformado e redes de gate adicionais. Neste artigo, exploramos de forma abrangente diferentes métodos para construção de especialistas e várias estratégias de amostragem de dados para o pré-treinamento contínuo. Após essas etapas, nossos modelos LLaMA-MoE conseguem manter habilidades linguísticas e direcionar os tokens de entrada para especialistas específicos com parte dos parâmetros ativados. Empiricamente, ao treinar com 200B tokens, os modelos LLaMA-MoE-3.5B superam significativamente modelos densos que possuem parâmetros de ativação semelhantes. Os códigos-fonte e modelos estão disponíveis em https://github.com/pjlab-sys4nlp/llama-moe.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tong Zhu
Xiaoye Qu
Daize Dong
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu et al. (Mon,) estudaram essa questão.
www.synapsesocial.com/papers/68e63901b6db6435875ca741 — DOI: https://doi.org/10.48550/arxiv.2406.16554
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: