August 20, 2024Open Access

HMoE : Mélange Hétérogène d'Experts pour la Modélisation du Langage

Key Points

Key points are not available for this paper at this time.

Abstract

Le Mélange d'Experts (MoE) offre des performances remarquables et une efficacité computationnelle en activant sélectivement des sous-ensembles de paramètres du modèle. Traditionnellement, les modèles MoE utilisent des experts homogènes, chacun ayant une capacité identique. Cependant, la complexité variable des données d'entrée nécessite des experts aux capacités diverses, tandis que le MoE homogène freine la spécialisation effective des experts et une utilisation efficiente des paramètres. Dans cette étude, nous proposons un nouveau Mélange Hétérogène d'Experts (HMoE), où les experts diffèrent en taille et possèdent donc des capacités diverses. Cette hétérogénéité permet à des experts plus spécialisés de gérer plus efficacement la complexité variable des tokens. Pour remédier au déséquilibre dans l'activation des experts, nous proposons un nouvel objectif d'entraînement qui encourage l'activation fréquente des experts plus petits, améliorant ainsi l'efficacité computationnelle et l'utilisation des paramètres. Des expériences étendues démontrent que HMoE atteint une perte plus faible avec moins de paramètres activés et surpasse les modèles MoE homogènes conventionnels sur divers benchmarks d'évaluation pré-entraînement. Les codes seront publiés après acceptation.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

An Wang

Xingwu Sun

Ruobing Xie

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

HMoE : Mélange Hétérogène d'Experts pour la Modélisation du Langage

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider