Mistura de Especialistas (MoE) tornou-se um paradigma arquitetônico fundamental para a escalabilidade eficiente de Grandes Modelos de Linguagem (LLMs) ao ativar seletivamente um subconjunto de parâmetros para cada token de entrada. No entanto, arquiteturas MoE padrão enfrentam desafios significativos, incluindo alto consumo de memória e sobrecarga de comunicação durante o treinamento distribuído. Neste artigo, introduzimos Mistura de Especialistas Latentes (MoLAE), uma nova parametrização que resolve essas limitações ao reformular as operações dos especialistas por meio de uma projeção compartilhada em um espaço latente de menor dimensão, seguida por transformações específicas para cada especialista. Essa abordagem fatorada reduz substancialmente a contagem de parâmetros e os requisitos computacionais, especialmente em LLMs existentes onde as dimensões ocultas excedem significativamente as dimensões intermediárias do MoE. Fornecemos uma estrutura matemática rigorosa para transformar modelos MoE pré-treinados na arquitetura MoLAE, caracterizando condições para fatoração ótima e desenvolvendo um algoritmo sistemático em dois passos para essa conversão. Nossa análise teórica abrangente demonstra que MoLAE melhora significativamente a eficiência em múltiplas dimensões enquanto preserva as capacidades do modelo. Resultados experimentais confirmam que MoLAE alcança desempenho comparável ao MoE padrão com requisitos de recursos substancialmente reduzidos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zehua Liu
Han Wu
Ruifeng She
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Sat,) estudaram esta questão.
www.synapsesocial.com/papers/68da58d1c1728099cfd10e9b — DOI: https://doi.org/10.48550/arxiv.2503.23100
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: