What type of study is this?

This is a Quantitative Study study.

September 29, 2025Open Access

MoLAE: Mistura de Especialistas Latentes para Modelos de Linguagem com Eficiência de Parâmetros

Key Points

MoLAE reduz significativamente os requisitos de recursos enquanto preserva o desempenho dos grandes modelos de linguagem.
Esta arquitetura otimiza o modelo de mistura de especialistas para melhorar a eficiência de parâmetros ao reduzir a carga computacional.
Um algoritmo sistemático em dois passos facilita a transformação da arquitetura MoE padrão para MoLAE, aprimorando as capacidades extensas do modelo.
A análise teórica suporta a eficácia do MoLAE, mostrando melhorias em diversas dimensões de eficiência mantendo as capacidades existentes.

Abstract

Mistura de Especialistas (MoE) tornou-se um paradigma arquitetônico fundamental para a escalabilidade eficiente de Grandes Modelos de Linguagem (LLMs) ao ativar seletivamente um subconjunto de parâmetros para cada token de entrada. No entanto, arquiteturas MoE padrão enfrentam desafios significativos, incluindo alto consumo de memória e sobrecarga de comunicação durante o treinamento distribuído. Neste artigo, introduzimos Mistura de Especialistas Latentes (MoLAE), uma nova parametrização que resolve essas limitações ao reformular as operações dos especialistas por meio de uma projeção compartilhada em um espaço latente de menor dimensão, seguida por transformações específicas para cada especialista. Essa abordagem fatorada reduz substancialmente a contagem de parâmetros e os requisitos computacionais, especialmente em LLMs existentes onde as dimensões ocultas excedem significativamente as dimensões intermediárias do MoE. Fornecemos uma estrutura matemática rigorosa para transformar modelos MoE pré-treinados na arquitetura MoLAE, caracterizando condições para fatoração ótima e desenvolvendo um algoritmo sistemático em dois passos para essa conversão. Nossa análise teórica abrangente demonstra que MoLAE melhora significativamente a eficiência em múltiplas dimensões enquanto preserva as capacidades do modelo. Resultados experimentais confirmam que MoLAE alcança desempenho comparável ao MoE padrão com requisitos de recursos substancialmente reduzidos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zehua Liu

Han Wu

Ruifeng She

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoLAE: Mistura de Especialistas Latentes para Modelos de Linguagem com Eficiência de Parâmetros

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider