Las arquitecturas de Mezcla de Expertos (MoE) se han convertido en clave para escalar los LLM modernos, pero se entiende poco cómo sus dinámicas de enrutamiento escaso responden a datos multilingües. En este trabajo, analizamos patrones de enrutamiento de expertos usando conjuntos de datos multilingües paralelos y presentamos fenómenos interpretables capa por capa. Encontramos que los modelos MoE enrutan tokens de manera específica por idioma en las capas iniciales y finales del decodificador, pero muestran una alineación significativa de enrutamiento cruzado en las capas medias, reflejando tendencias de compartición de parámetros observadas en LLM densos. En particular, revelamos una correlación clara y fuerte entre el desempeño del modelo en un idioma dado y la similitud del enrutamiento de sus tokens al inglés en estas capas. Más allá de la correlación, exploramos intervenciones en tiempo de inferencia que inducen mayor alineación de enrutamiento cruzado. Introducimos un método que dirige el router promoviendo expertos de tarea en capas medias frecuentemente activados en inglés, lo que aumenta exitosamente el desempeño multilingüe. Estas mejoras del 1-2 % son notablemente consistentes en dos tareas de evaluación, tres modelos y más de 15 idiomas, especialmente considerando que estas intervenciones simples sobreescriben routers de LLM extensamente entrenados y de última generación. En comparación, intervenciones fuera de las capas medias o que apuntan a expertos especializados multilingües solo degradan el desempeño. En conjunto, presentamos numerosos hallazgos que explican cómo los MoE procesan texto no inglés y demostramos que la generalización está limitada por la capacidad del modelo para aprovechar expertos universales por idioma en todos los idiomas.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lucas Bandarkar
Changxi Yang
Mohsen Fayyaz
Building similarity graph...
Analyzing shared references across papers
Loading...
Bandarkar et al. (Mon,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e997abe14057276da7f1e9 — DOI: https://doi.org/10.48550/arxiv.2510.04694
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: