Key points are not available for this paper at this time.
Recentemente, grandes modelos de linguagem (LLMs) alcançaram avanços extraordinários no campo do processamento de linguagem, porém seus mecanismos ao processar múltiplos idiomas permanecem desconhecidos. Portanto, neste trabalho estudamos os padrões de ativação multilíngue dos LLMs. Ao transformar os Modelos de Linguagem Grandes originais em uma arquitetura Mixture of Experts (MoE), analisamos os padrões de ativação dos especialistas ao processar vários idiomas e demonstramos as conexões desses padrões de ativação ao nível das famílias linguísticas. Descobrimos a existência de neurônios não específicos de idioma, bem como neurônios de ativação específicos de idioma. Explorações adicionais mostram que simplesmente aproveitar neurônios de ativação de alta frequência pode acelerar a inferência mantendo desempenho comparável. Essas descobertas elucidam o mecanismo de processamento multilíngue dos LLMs e são de importância significativa para orientar o treinamento multilíngue e a poda de modelos dos LLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Weize Liu
Yinlong Xu
Hongxia Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Mon,) estudaram esta questão.
www.synapsesocial.com/papers/68e779e4b6db6435876ee840 — DOI: https://doi.org/10.48550/arxiv.2402.16367
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: