Key points are not available for this paper at this time.
Grandes Modelos de Linguagem (LLMs) são frequentemente centrados no inglês devido à distribuição desproporcional de idiomas em seus dados de pré-treinamento. Aprimorar as capacidades para idiomas não ingleses por meio do pós-pré-treinamento frequentemente resulta em esquecimento catastrófico da habilidade nos idiomas originais. Métodos anteriores alcançam ou uma boa expansão com esquecimento severo ou um leve esquecimento com expansão pobre, indicando o desafio de equilibrar a expansão linguística enquanto se previne o esquecimento. Neste artigo, propomos um método chamado MoE-LPR (Mistura de Especialistas com Roteamento de Priorização Linguística) para mitigar esse problema. O MoE-LPR utiliza uma abordagem de treinamento em duas etapas para aprimorar a capacidade multilíngue. Primeiro, o modelo é pós-pré-treinado em uma arquitetura de Mistura de Especialistas (MoE) através de reciclagem, onde todos os parâmetros originais são congelados e novos especialistas são adicionados. Nesta etapa, focamos em melhorar a habilidade nos idiomas expandidos, sem usar dados dos idiomas originais. Depois, o modelo revisa o conhecimento dos idiomas originais com dados de replay que correspondem a menos de 1% do pós-pré-treinamento, incorporando o roteamento de priorização linguística para melhor recuperar as habilidades dos idiomas originais. Avaliações em múltiplos benchmarks mostram que o MoE-LPR supera outros métodos de pós-pré-treinamento. Congelar os parâmetros originais preserva o conhecimento linguístico original enquanto adicionar novos especialistas mantém a capacidade de aprendizado. Revisar com LPR permite a utilização eficaz do conhecimento multilíngue dentro dos parâmetros. Além disso, a arquitetura MoE mantém a mesma sobrecarga de inferência enquanto aumenta o total de parâmetros do modelo. Experimentos extensivos demonstram a eficácia do MoE-LPR na melhoria dos idiomas expandidos e na preservação da proficiência original com escalabilidade superior. Código e scripts estão disponíveis gratuitamente em https://github.com/zjwang21/MoE-LPR.git.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Zhou
Zhijun Wang
Shujian Huang
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e5b89bb6db64358755105f — DOI: https://doi.org/10.48550/arxiv.2408.11396
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: