What type of study is this?

This is a Experimental Study study.

September 30, 2025Open Access

Élimination d'experts, recombinaison de neurones : élagage sans réentraînement pour les LLMs à mélange d'experts clairsemé

Key Points

DERN améliore les performances de plus de 5 % sur les benchmarks de raisonnement de bon sens sans entraînement supplémentaire.
Cette approche réduit significativement l'utilisation de la mémoire tout en rendant le déploiement des Sparse Mixture-of-Experts plus efficace.
L'élagage des experts redondants et la recombinaison neuronale contribuent à optimiser les grands modèles de langage.
Les expériences démontrent des améliorations sur plusieurs modèles SMoE avec une densité d'experts de 50 %.

Abstract

Les architectures Sparse Mixture-of-Experts (SMoE) sont largement utilisées dans les grands modèles de langage (LLMs) en raison de leur efficacité computationnelle. Cependant, bien que seuls quelques experts soient activés pour chaque jeton, les SMoE nécessitent toujours le chargement de tous les paramètres d'experts, entraînant une forte consommation de mémoire et des défis pour le déploiement. Les travaux précédents ont tenté de réduire cette surcharge en élaguant et fusionnant les experts, mais se sont principalement concentrés sur des opérations au niveau des experts, laissant la structure au niveau des neurones peu explorée. Nous proposons DERN (Dropping Experts, Recombining Neurons), un cadre agnostique à la tâche et sans besoin de réentraînement pour l'élagage et la reconstruction des experts. Nous observons que les experts sont souvent désalignés et contiennent des conflits sémantiques au niveau des neurones, ce qui complique la fusion directe. Pour résoudre cela, DERN fonctionne en trois étapes : il élague d'abord les experts redondants à l'aide des statistiques du routeur ; ensuite, il les décompose en segments d'experts au niveau des neurones, assignant chaque segment à l'expert retenu le plus compatible ; enfin, il fusionne les segments au sein de chaque expert retenu pour construire une représentation compacte. Des expériences sur les modèles SMoE Mixtral, Qwen et DeepSeek montrent que DERN améliore les performances de plus de 5 % sur les benchmarks de raisonnement de bon sens et MMLU sous une densité d'experts de 50 %, sans entraînement supplémentaire. Il réduit également considérablement le nombre d’experts et la consommation mémoire, facilitant ainsi le déploiement pratique des LLMs SMoE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yixiao Zhou

Ziyu Zhao

Dongzhou Cheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Élimination d'experts, recombinaison de neurones : élagage sans réentraînement pour les LLMs à mélange d'experts clairsemé

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider