What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

Enrutamiento multilingüe en mezcla de expertos

Puntos clave

Los modelos MoE muestran patrones de enrutamiento distintos para diferentes idiomas, indicando matices en el procesamiento capa por capa.
Se observa una alineación significativa de enrutamiento cruzado en capas medias, correlacionada con el desempeño en múltiples idiomas.
Intervenciones que mejoran expertos en el enrutamiento de capas medias incrementan en un 1-2 % el desempeño en tareas multilingües, demostrando estrategias efectivas.
Los hallazgos ilustran que el desempeño multilingüe está limitado por la capacidad del modelo para utilizar expertos universales para todos los idiomas.

Resumen

Las arquitecturas de Mezcla de Expertos (MoE) se han convertido en clave para escalar los LLM modernos, pero se entiende poco cómo sus dinámicas de enrutamiento escaso responden a datos multilingües. En este trabajo, analizamos patrones de enrutamiento de expertos usando conjuntos de datos multilingües paralelos y presentamos fenómenos interpretables capa por capa. Encontramos que los modelos MoE enrutan tokens de manera específica por idioma en las capas iniciales y finales del decodificador, pero muestran una alineación significativa de enrutamiento cruzado en las capas medias, reflejando tendencias de compartición de parámetros observadas en LLM densos. En particular, revelamos una correlación clara y fuerte entre el desempeño del modelo en un idioma dado y la similitud del enrutamiento de sus tokens al inglés en estas capas. Más allá de la correlación, exploramos intervenciones en tiempo de inferencia que inducen mayor alineación de enrutamiento cruzado. Introducimos un método que dirige el router promoviendo expertos de tarea en capas medias frecuentemente activados en inglés, lo que aumenta exitosamente el desempeño multilingüe. Estas mejoras del 1-2 % son notablemente consistentes en dos tareas de evaluación, tres modelos y más de 15 idiomas, especialmente considerando que estas intervenciones simples sobreescriben routers de LLM extensamente entrenados y de última generación. En comparación, intervenciones fuera de las capas medias o que apuntan a expertos especializados multilingües solo degradan el desempeño. En conjunto, presentamos numerosos hallazgos que explican cómo los MoE procesan texto no inglés y demostramos que la generalización está limitada por la capacidad del modelo para aprovechar expertos universales por idioma en todos los idiomas.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lucas Bandarkar

Changxi Yang

Mohsen Fayyaz

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Enrutamiento multilingüe en mezcla de expertos

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider