Neuronas em grandes modelos de linguagem frequentemente exibem polissemia, codificando simultaneamente múltiplos conceitos não relacionados e obscurecendo a interpretabilidade. Em vez de depender de métodos pós-hoc, apresentamos MoE-X, um modelo de linguagem Mixture-of-Experts (MoE) projetado para ser intrinsecamente interpretável. Nossa abordagem é motivada pela observação de que, em modelos de linguagem, redes mais largas com ativações esparsas têm maior probabilidade de capturar fatores interpretáveis. Contudo, treinar diretamente tais redes grandes e esparsas é computacionalmente proibitivo. Arquiteturas MoE oferecem uma alternativa escalável ao ativar apenas um subconjunto de especialistas para qualquer entrada dada, alinhando-se inerentemente com objetivos de interpretabilidade. No MoE-X, estabelecemos essa conexão reescrevendo a camada MoE como um MLP grande e esparso equivalente. Essa abordagem permite o escalonamento eficiente do tamanho oculto mantendo a esparsidade. Para aumentar ainda mais a interpretabilidade, aplicamos ativação esparsa dentro de cada especialista e redesenhamos o mecanismo de roteamento para priorizar especialistas com maior esparsidade de ativação. Esses projetos garantem que apenas as características mais salientes sejam roteadas e processadas pelos especialistas. Avaliamos o MoE-X em tarefas de xadrez e linguagem natural, mostrando que alcança desempenho comparável aos modelos densos enquanto melhora significativamente a interpretabilidade. MoE-X atinge uma perplexidade melhor que GPT-2, com interpretabilidade superior até mesmo a abordagens baseadas em autoencoders esparsos (SAE).
Building similarity graph...
Analyzing shared references across papers
Loading...
Xingyi Yang
Constantin Venhoff
Ashkan Khakzar
Building similarity graph...
Analyzing shared references across papers
Loading...
Yang et al. (Qua,) estudaram essa questão.
www.synapsesocial.com/papers/68d90a0f41e1c178a14f6956 — DOI: https://doi.org/10.48550/arxiv.2503.07639
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: