Key points are not available for this paper at this time.
Le Mélange d'Experts (MoE) offre des performances remarquables et une efficacité computationnelle en activant sélectivement des sous-ensembles de paramètres du modèle. Traditionnellement, les modèles MoE utilisent des experts homogènes, chacun ayant une capacité identique. Cependant, la complexité variable des données d'entrée nécessite des experts aux capacités diverses, tandis que le MoE homogène freine la spécialisation effective des experts et une utilisation efficiente des paramètres. Dans cette étude, nous proposons un nouveau Mélange Hétérogène d'Experts (HMoE), où les experts diffèrent en taille et possèdent donc des capacités diverses. Cette hétérogénéité permet à des experts plus spécialisés de gérer plus efficacement la complexité variable des tokens. Pour remédier au déséquilibre dans l'activation des experts, nous proposons un nouvel objectif d'entraînement qui encourage l'activation fréquente des experts plus petits, améliorant ainsi l'efficacité computationnelle et l'utilisation des paramètres. Des expériences étendues démontrent que HMoE atteint une perte plus faible avec moins de paramètres activés et surpasse les modèles MoE homogènes conventionnels sur divers benchmarks d'évaluation pré-entraînement. Les codes seront publiés après acceptation.
Building similarity graph...
Analyzing shared references across papers
Loading...
An Wang
Xingwu Sun
Ruobing Xie
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (mar.) ont étudié cette question.
www.synapsesocial.com/papers/68e5b9a9b6db643587551976 — DOI: https://doi.org/10.48550/arxiv.2408.10681
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: