El desequilibrio de carga es un importante cuello de botella en el rendimiento durante el entrenamiento de modelos mezcla de expertos (MoE), ya que las cargas desequilibradas en los expertos pueden provocar un colapso del enrutamiento. La mayoría de los enfoques existentes abordan este problema mediante la introducción de funciones de pérdida auxiliares para equilibrar la carga; sin embargo, los hiperparámetros dentro de estas funciones de pérdida a menudo necesitan ajustarse para diferentes tareas. Además, aumentar el número de expertos activados tiende a agravar el desequilibrio de carga, mientras que fijar el número de activaciones puede reducir la confianza del modelo para manejar tareas difíciles. Para abordar estos desafíos, este artículo propone una estrategia de enrutamiento dinámicamente equilibrada que emplea un algoritmo de enrutamiento dinámico basado en umbrales. Después de cada paso de enrutamiento, el método ajusta los pesos de los expertos para influir en la distribución de la carga en el enrutamiento subsiguiente. A diferencia de los métodos de balanceo basados en funciones de pérdida, nuestro enfoque opera directamente a nivel de enrutamiento, evitando perturbaciones de gradiente que podrían degradar la calidad del modelo, al tiempo que enruta dinámicamente para hacer un uso más eficiente de los recursos computacionales. Los experimentos en benchmarks de Comprensión del Lenguaje Natural (NLU) demuestran que el método propuesto alcanza una precisión comparable al enrutamiento top-2, mientras que reduce significativamente la desviación estándar de carga (por ejemplo, de 12.25 a 1.18 en MNLI). Además, la activación dinámica de expertos basada en umbrales reduce los parámetros del modelo y proporciona una nueva perspectiva para mitigar el desequilibrio de carga entre expertos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jialin Wen
Xiaojun Li
Junping Yao
Frontiers in Neurorobotics
Building similarity graph...
Analyzing shared references across papers
Loading...
Wen et al. (Tue,) studied this question.
www.synapsesocial.com/papers/68f0492fe559138a1a06de7e — DOI: https://doi.org/10.3389/fnbot.2025.1590994
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: