February 26, 2024Open Access

Démêler Babel : explorer les schémas d'activation multilingues au sein des grands modèles de langage

Key Points

Key points are not available for this paper at this time.

Abstract

Récemment, les grands modèles de langage (LLMs) ont réalisé des avancées considérables dans le domaine du traitement du langage, cependant leurs mécanismes de traitement de plusieurs langues restent inconnus. Par conséquent, dans ce travail, nous étudions les schémas d'activation multilingues des LLMs. En transformant les LLMs originaux en une architecture Mixture of Experts (MoE), nous analysons les schémas d'activation des experts lors du traitement de différentes langues et démontrons les connexions de ces schémas au niveau des familles de langues. Nous découvrons l'existence de neurones non spécifiques à une langue ainsi que de neurones d'activation spécifiques à une langue. Une exploration plus approfondie montre même que l'utilisation uniquement des neurones d'activation à haute fréquence peut accélérer l'inférence tout en maintenant des performances comparables. Ces résultats éclairent le mécanisme de traitement multilingue des LLMs et sont d'une importance significative pour guider l'entraînement multilingue et l'élagage des modèles de LLMs.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Weize Liu

Yinlong Xu

Hongxia Xu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Démêler Babel : explorer les schémas d'activation multilingues au sein des grands modèles de langage

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider