What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

Mehrsprachiges Routing in Mixture-of-Experts

Key Points

MoE-Modelle zeigen unterschiedliche Routing-Muster für verschiedene Sprachen, was auf schichtenspezifische Verarbeitungsnuancen hinweist.
In den mittleren Schichten findet eine signifikante cross-linguale Routing-Übereinstimmung statt, die mit der Leistung in mehreren Sprachen korreliert.
Eingriffe, die Experten im mittleren Schichtrouting fördern, verbessern mehrsprachige Aufgaben um 1-2 % und zeigen wirksame Strategien.
Die Ergebnisse verdeutlichen, dass die mehrsprachige Performance durch die Fähigkeit des Modells begrenzt wird, sprachübergreifende Experten zu nutzen.

Abstract

Mixture-of-Experts (MoE)-Architekturen sind entscheidend für die Skalierung moderner LLMs, doch wenig ist darüber bekannt, wie deren sparsames Routing-Verhalten auf mehrsprachige Daten reagiert. In dieser Arbeit analysieren wir das Expert-Routing anhand paralleler mehrsprachiger Datensätze und präsentieren hochgradig interpretierbare schichtweise Phänomene. Wir finden heraus, dass MoE-Modelle Tokens in den frühen und späten Decoder-Schichten sprachspezifisch routen, während in den mittleren Schichten eine signifikante cross-linguale Routing-Übereinstimmung vorliegt, die Parameter-Sharing-Trends dichter LLMs widerspiegelt. Insbesondere zeigen wir eine klare, starke Korrelation zwischen der Leistung eines Modells in einer bestimmten Sprache und der Ähnlichkeit seiner Token-Routing-Wege zu Englisch in diesen Schichten. Über die Korrelation hinaus untersuchen wir während der Inferenz Zeit eingreifende Maßnahmen, die eine stärkere cross-linguale Routing-Ausrichtung bewirken. Wir stellen eine Methode vor, die den Router steuert, indem sie Experten für Aufgaben in den mittleren Schichten fördert, die häufig im Englischen aktiviert werden, und die erfolgreich die mehrsprachige Leistung erhöht. Diese 1-2 % Verbesserungen sind bemerkenswert konsistent über zwei Bewertungsaufgaben, drei Modelle und mehr als 15 Sprachen, besonders da diese einfachen Eingriffe Router von umfangreich trainierten, hochmodernen LLMs außer Kraft setzen. Im Vergleich dazu führen Eingriffe außerhalb der mittleren Schichten oder solche, die auf mehrsprachig spezialisierte Experten abzielen, nur zu Leistungseinbußen. Insgesamt präsentieren wir zahlreiche Erkenntnisse, die erklären, wie MoEs nicht-englischen Text verarbeiten, und zeigen, dass die Generalisierung durch die Fähigkeit des Modells begrenzt ist, sprachübergreifende Experten in allen Sprachen zu nutzen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Lucas Bandarkar

Changxi Yang

Mohsen Fayyaz

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mehrsprachiges Routing in Mixture-of-Experts

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider