Key points are not available for this paper at this time.
Grandes modelos de linguagem (LLMs) alcançaram avanços sem precedentes em diversos campos, desde o processamento de linguagem natural até visão computacional e além. A habilidade dos LLMs é sustentada pelo seu tamanho substancial de modelo, conjuntos de dados extensos e diversos, e o vasto poder computacional utilizado durante o treinamento, todos os quais contribuem para as habilidades emergentes dos LLMs (por exemplo, aprendizagem no contexto) que não estão presentes em modelos pequenos. Nesse contexto, a mistura de especialistas (MoE) emergiu como um método eficaz para aumentar substancialmente a capacidade do modelo com custo computacional mínimo, ganhando atenção significativa da academia e da indústria. Apesar de sua crescente prevalência, falta uma revisão sistemática e abrangente da literatura sobre MoE. Esta pesquisa busca preencher essa lacuna, servindo como um recurso essencial para pesquisadores que exploram as complexidades do MoE. Primeiramente, introduzimos brevemente a estrutura da camada MoE, seguida pela proposta de uma nova taxonomia de MoE. Em seguida, fazemos uma visão geral dos designs principais para vários modelos MoE, incluindo aspectos algorítmicos e sistêmicos, juntamente com coleções de implementações open-source disponíveis, configurações de hiperparâmetros e avaliações empíricas. Além disso, delineamos as múltiplas aplicações práticas do MoE e esboçamos algumas direções potenciais para pesquisas futuras. Para facilitar atualizações contínuas e o compartilhamento dos avanços mais recentes em pesquisa MoE, estabelecemos um repositório de recursos acessível em https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts.
Building similarity graph...
Analyzing shared references across papers
Loading...
Weilin Cai
Juyong Jiang
Fan Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Cai et al. (qua,) estudaram esta questão.
www.synapsesocial.com/papers/68e634d1b6db6435875c670e — DOI: https://doi.org/10.48550/arxiv.2407.06204
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: