Le déséquilibre de charge est un goulot d’étranglement majeur de performance dans l’entraînement des modèles mixture-of-experts (MoE), car des charges d’experts déséquilibrées peuvent entraîner un effondrement du routage. La plupart des approches existantes traitent ce problème en introduisant des fonctions de perte auxiliaires pour équilibrer la charge ; cependant, les hyperparamètres de ces fonctions de perte doivent souvent être réglés pour différentes tâches. De plus, augmenter le nombre d’experts activés tend à aggraver le déséquilibre de charge, tandis que fixer le nombre d’activations peut réduire la confiance du modèle dans la gestion de tâches difficiles. Pour relever ces défis, cet article propose une stratégie de routage à équilibre dynamique reposant sur un algorithme dynamique de routage à seuil. Après chaque étape de routage, la méthode ajuste les poids des experts pour influencer la distribution de charge lors du routage suivant. Contrairement aux méthodes d’équilibrage basées sur des fonctions de perte, notre approche opère directement au niveau du routage, évitant les perturbations de gradient susceptibles de dégrader la qualité du modèle, tout en routant de manière dynamique pour une utilisation plus efficace des ressources de calcul. Des expériences sur des benchmarks de compréhension du langage naturel (NLU) montrent que la méthode proposée atteint une précision comparable au routage top-2, tout en réduisant significativement l’écart-type de charge (par exemple, de 12,25 à 1,18 sur MNLI). De plus, l’activation dynamique d’experts basée sur un seuil réduit les paramètres du modèle et offre une nouvelle perspective pour atténuer le déséquilibre de charge entre experts.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jialin Wen
Xiaojun Li
Junping Yao
Frontiers in Neurorobotics
Building similarity graph...
Analyzing shared references across papers
Loading...
Wen et al. (Mar.) ont étudié cette question.
www.synapsesocial.com/papers/68f0492fe559138a1a06de7e — DOI: https://doi.org/10.3389/fnbot.2025.1590994
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: