What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

September 28, 2025Open Access

Mixture of Experts, die von Natur aus interpretierbar sind

Key Points

MoE-X erreicht bessere Interpretierbarkeit bei gleichzeitig vergleichbarer Leistung zu dichten Sprachmodellen.
Die Evaluation in Schach- und Aufgaben der natürlichen Sprache zeigt eine Perplexität, die besser ist als die von GPT-2.
Sparsames Aktivieren innerhalb jedes Experten verbessert das Feature-Routing und die Interpretierbarkeitsziele.
Die Architektur des Modells erlaubt eine effiziente Skalierung bei gleichbleibender Leistung.

Abstract

Neuronale Netze in großen Sprachmodellen zeigen häufig Polysesemik, indem sie gleichzeitig mehrere nicht zusammenhängende Konzepte kodieren und dadurch die Interpretierbarkeit erschweren. Anstatt sich auf nachträgliche Methoden zu verlassen, präsentieren wir MoE-X, ein Mixture-of-Experts (MoE) Sprachmodell, das intrinsisch interpretierbar gestaltet wurde. Unser Ansatz wird durch die Beobachtung motiviert, dass in Sprachmodellen breitere Netze mit sparsamen Aktivierungen eher interpretierbare Faktoren erfassen. Allerdings ist das direkte Training solcher großen, sparsamen Netze rechnerisch sehr aufwendig. MoE-Architekturen bieten eine skalierbare Alternative, indem sie für eine gegebene Eingabe nur eine Teilmenge von Experten aktivieren, was den Interpretierbarkeitszielen inhärent entspricht. In MoE-X stellen wir diese Verbindung her, indem wir die MoE-Schicht als äquivalentes, sparsames, großes MLP umschreiben. Dieser Ansatz ermöglicht eine effiziente Skalierung der verborgenen Größe bei gleichzeitiger Erhaltung der Sparsamkeit. Um die Interpretierbarkeit weiter zu verbessern, erzwingen wir sparsames Aktivieren innerhalb jedes Experten und gestalten den Routing-Mechanismus so um, dass Experten mit der höchsten Aktivierungssparsität priorisiert werden. Diese Entwürfe gewährleisten, dass nur die hervorstechendsten Merkmale an die Experten weitergeleitet und von ihnen verarbeitet werden. Wir evaluieren MoE-X in Schach- und Aufgaben der natürlichen Sprache und zeigen, dass es eine Leistung erzielt, die mit dichten Modellen vergleichbar ist, während es die Interpretierbarkeit deutlich verbessert. MoE-X erreicht eine Perplexität, die besser als die von GPT-2 ist, mit einer Interpretierbarkeit, die sogar Ansätze auf Basis von sparsamen Autoencodern (SAE) übertrifft.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xingyi Yang

Constantin Venhoff

Ashkan Khakzar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mixture of Experts, die von Natur aus interpretierbar sind

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider