What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

September 28, 2025Open Access

Mistura de Especialistas Intrinsecamente Interpretável

Key Points

MoE-X alcança melhor interpretabilidade enquanto iguala o desempenho de modelos de linguagem densos.
Avaliação em tarefas de xadrez e linguagem natural mostra perplexidade melhor que GPT-2.
Ativação esparsa dentro de cada especialista melhora o roteamento de características e os objetivos de interpretabilidade.
A arquitetura do modelo permite escalonamento eficiente enquanto mantém os resultados de desempenho.

Abstract

Neuronas em grandes modelos de linguagem frequentemente exibem polissemia, codificando simultaneamente múltiplos conceitos não relacionados e obscurecendo a interpretabilidade. Em vez de depender de métodos pós-hoc, apresentamos MoE-X, um modelo de linguagem Mixture-of-Experts (MoE) projetado para ser intrinsecamente interpretável. Nossa abordagem é motivada pela observação de que, em modelos de linguagem, redes mais largas com ativações esparsas têm maior probabilidade de capturar fatores interpretáveis. Contudo, treinar diretamente tais redes grandes e esparsas é computacionalmente proibitivo. Arquiteturas MoE oferecem uma alternativa escalável ao ativar apenas um subconjunto de especialistas para qualquer entrada dada, alinhando-se inerentemente com objetivos de interpretabilidade. No MoE-X, estabelecemos essa conexão reescrevendo a camada MoE como um MLP grande e esparso equivalente. Essa abordagem permite o escalonamento eficiente do tamanho oculto mantendo a esparsidade. Para aumentar ainda mais a interpretabilidade, aplicamos ativação esparsa dentro de cada especialista e redesenhamos o mecanismo de roteamento para priorizar especialistas com maior esparsidade de ativação. Esses projetos garantem que apenas as características mais salientes sejam roteadas e processadas pelos especialistas. Avaliamos o MoE-X em tarefas de xadrez e linguagem natural, mostrando que alcança desempenho comparável aos modelos densos enquanto melhora significativamente a interpretabilidade. MoE-X atinge uma perplexidade melhor que GPT-2, com interpretabilidade superior até mesmo a abordagens baseadas em autoencoders esparsos (SAE).

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xingyi Yang

Constantin Venhoff

Ashkan Khakzar

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mistura de Especialistas Intrinsecamente Interpretável

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider