Mixture-of-Experts (MoE)-Architekturen sind entscheidend für die Skalierung moderner LLMs, doch wenig ist darüber bekannt, wie deren sparsames Routing-Verhalten auf mehrsprachige Daten reagiert. In dieser Arbeit analysieren wir das Expert-Routing anhand paralleler mehrsprachiger Datensätze und präsentieren hochgradig interpretierbare schichtweise Phänomene. Wir finden heraus, dass MoE-Modelle Tokens in den frühen und späten Decoder-Schichten sprachspezifisch routen, während in den mittleren Schichten eine signifikante cross-linguale Routing-Übereinstimmung vorliegt, die Parameter-Sharing-Trends dichter LLMs widerspiegelt. Insbesondere zeigen wir eine klare, starke Korrelation zwischen der Leistung eines Modells in einer bestimmten Sprache und der Ähnlichkeit seiner Token-Routing-Wege zu Englisch in diesen Schichten. Über die Korrelation hinaus untersuchen wir während der Inferenz Zeit eingreifende Maßnahmen, die eine stärkere cross-linguale Routing-Ausrichtung bewirken. Wir stellen eine Methode vor, die den Router steuert, indem sie Experten für Aufgaben in den mittleren Schichten fördert, die häufig im Englischen aktiviert werden, und die erfolgreich die mehrsprachige Leistung erhöht. Diese 1-2 % Verbesserungen sind bemerkenswert konsistent über zwei Bewertungsaufgaben, drei Modelle und mehr als 15 Sprachen, besonders da diese einfachen Eingriffe Router von umfangreich trainierten, hochmodernen LLMs außer Kraft setzen. Im Vergleich dazu führen Eingriffe außerhalb der mittleren Schichten oder solche, die auf mehrsprachig spezialisierte Experten abzielen, nur zu Leistungseinbußen. Insgesamt präsentieren wir zahlreiche Erkenntnisse, die erklären, wie MoEs nicht-englischen Text verarbeiten, und zeigen, dass die Generalisierung durch die Fähigkeit des Modells begrenzt ist, sprachübergreifende Experten in allen Sprachen zu nutzen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lucas Bandarkar
Changxi Yang
Mohsen Fayyaz
Building similarity graph...
Analyzing shared references across papers
Loading...
Bandarkar et al. (Mon,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e997abe14057276da7f1e9 — DOI: https://doi.org/10.48550/arxiv.2510.04694
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: