Neuronale Netze in großen Sprachmodellen zeigen häufig Polysesemik, indem sie gleichzeitig mehrere nicht zusammenhängende Konzepte kodieren und dadurch die Interpretierbarkeit erschweren. Anstatt sich auf nachträgliche Methoden zu verlassen, präsentieren wir MoE-X, ein Mixture-of-Experts (MoE) Sprachmodell, das intrinsisch interpretierbar gestaltet wurde. Unser Ansatz wird durch die Beobachtung motiviert, dass in Sprachmodellen breitere Netze mit sparsamen Aktivierungen eher interpretierbare Faktoren erfassen. Allerdings ist das direkte Training solcher großen, sparsamen Netze rechnerisch sehr aufwendig. MoE-Architekturen bieten eine skalierbare Alternative, indem sie für eine gegebene Eingabe nur eine Teilmenge von Experten aktivieren, was den Interpretierbarkeitszielen inhärent entspricht. In MoE-X stellen wir diese Verbindung her, indem wir die MoE-Schicht als äquivalentes, sparsames, großes MLP umschreiben. Dieser Ansatz ermöglicht eine effiziente Skalierung der verborgenen Größe bei gleichzeitiger Erhaltung der Sparsamkeit. Um die Interpretierbarkeit weiter zu verbessern, erzwingen wir sparsames Aktivieren innerhalb jedes Experten und gestalten den Routing-Mechanismus so um, dass Experten mit der höchsten Aktivierungssparsität priorisiert werden. Diese Entwürfe gewährleisten, dass nur die hervorstechendsten Merkmale an die Experten weitergeleitet und von ihnen verarbeitet werden. Wir evaluieren MoE-X in Schach- und Aufgaben der natürlichen Sprache und zeigen, dass es eine Leistung erzielt, die mit dichten Modellen vergleichbar ist, während es die Interpretierbarkeit deutlich verbessert. MoE-X erreicht eine Perplexität, die besser als die von GPT-2 ist, mit einer Interpretierbarkeit, die sogar Ansätze auf Basis von sparsamen Autoencodern (SAE) übertrifft.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xingyi Yang
Constantin Venhoff
Ashkan Khakzar
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang et al. (Wed,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68d90a0f41e1c178a14f6956 — DOI: https://doi.org/10.48550/arxiv.2503.07639
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: