Key points are not available for this paper at this time.
Récemment, les grands modèles de langage (LLMs) ont réalisé des avancées considérables dans le domaine du traitement du langage, cependant leurs mécanismes de traitement de plusieurs langues restent inconnus. Par conséquent, dans ce travail, nous étudions les schémas d'activation multilingues des LLMs. En transformant les LLMs originaux en une architecture Mixture of Experts (MoE), nous analysons les schémas d'activation des experts lors du traitement de différentes langues et démontrons les connexions de ces schémas au niveau des familles de langues. Nous découvrons l'existence de neurones non spécifiques à une langue ainsi que de neurones d'activation spécifiques à une langue. Une exploration plus approfondie montre même que l'utilisation uniquement des neurones d'activation à haute fréquence peut accélérer l'inférence tout en maintenant des performances comparables. Ces résultats éclairent le mécanisme de traitement multilingue des LLMs et sont d'une importance significative pour guider l'entraînement multilingue et l'élagage des modèles de LLMs.
Building similarity graph...
Analyzing shared references across papers
Loading...
Weize Liu
Yinlong Xu
Hongxia Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e779e4b6db6435876ee840 — DOI: https://doi.org/10.48550/arxiv.2402.16367
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: