February 26, 2024Open Access

Desvendando Babel: Explorando Padrões de Ativação Multilíngue em Modelos de Linguagem Grandes

Key Points

Key points are not available for this paper at this time.

Abstract

Recentemente, grandes modelos de linguagem (LLMs) alcançaram avanços extraordinários no campo do processamento de linguagem, porém seus mecanismos ao processar múltiplos idiomas permanecem desconhecidos. Portanto, neste trabalho estudamos os padrões de ativação multilíngue dos LLMs. Ao transformar os Modelos de Linguagem Grandes originais em uma arquitetura Mixture of Experts (MoE), analisamos os padrões de ativação dos especialistas ao processar vários idiomas e demonstramos as conexões desses padrões de ativação ao nível das famílias linguísticas. Descobrimos a existência de neurônios não específicos de idioma, bem como neurônios de ativação específicos de idioma. Explorações adicionais mostram que simplesmente aproveitar neurônios de ativação de alta frequência pode acelerar a inferência mantendo desempenho comparável. Essas descobertas elucidam o mecanismo de processamento multilíngue dos LLMs e são de importância significativa para orientar o treinamento multilíngue e a poda de modelos dos LLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Weize Liu

Yinlong Xu

Hongxia Xu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Desvendando Babel: Explorando Padrões de Ativação Multilíngue em Modelos de Linguagem Grandes

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider