August 21, 2024Open Access

MoE-LPR: Extensão Multilíngue de Grandes Modelos de Linguagem através de Mistura de Especialistas com Roteamento de Priorização Linguística

Key Points

Key points are not available for this paper at this time.

Abstract

Grandes Modelos de Linguagem (LLMs) são frequentemente centrados no inglês devido à distribuição desproporcional de idiomas em seus dados de pré-treinamento. Aprimorar as capacidades para idiomas não ingleses por meio do pós-pré-treinamento frequentemente resulta em esquecimento catastrófico da habilidade nos idiomas originais. Métodos anteriores alcançam ou uma boa expansão com esquecimento severo ou um leve esquecimento com expansão pobre, indicando o desafio de equilibrar a expansão linguística enquanto se previne o esquecimento. Neste artigo, propomos um método chamado MoE-LPR (Mistura de Especialistas com Roteamento de Priorização Linguística) para mitigar esse problema. O MoE-LPR utiliza uma abordagem de treinamento em duas etapas para aprimorar a capacidade multilíngue. Primeiro, o modelo é pós-pré-treinado em uma arquitetura de Mistura de Especialistas (MoE) através de reciclagem, onde todos os parâmetros originais são congelados e novos especialistas são adicionados. Nesta etapa, focamos em melhorar a habilidade nos idiomas expandidos, sem usar dados dos idiomas originais. Depois, o modelo revisa o conhecimento dos idiomas originais com dados de replay que correspondem a menos de 1% do pós-pré-treinamento, incorporando o roteamento de priorização linguística para melhor recuperar as habilidades dos idiomas originais. Avaliações em múltiplos benchmarks mostram que o MoE-LPR supera outros métodos de pós-pré-treinamento. Congelar os parâmetros originais preserva o conhecimento linguístico original enquanto adicionar novos especialistas mantém a capacidade de aprendizado. Revisar com LPR permite a utilização eficaz do conhecimento multilíngue dentro dos parâmetros. Além disso, a arquitetura MoE mantém a mesma sobrecarga de inferência enquanto aumenta o total de parâmetros do modelo. Experimentos extensivos demonstram a eficácia do MoE-LPR na melhoria dos idiomas expandidos e na preservação da proficiência original com escalabilidade superior. Código e scripts estão disponíveis gratuitamente em https://github.com/zjwang21/MoE-LPR.git.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hao Zhou

Zhijun Wang

Shujian Huang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoE-LPR: Extensão Multilíngue de Grandes Modelos de Linguagem através de Mistura de Especialistas com Roteamento de Priorização Linguística

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider