June 26, 2024Open Access

Uma Pesquisa sobre Mistura de Especialistas

Key Points

Key points are not available for this paper at this time.

Abstract

Grandes modelos de linguagem (LLMs) alcançaram avanços sem precedentes em diversos campos, desde o processamento de linguagem natural até visão computacional e além. A habilidade dos LLMs é sustentada pelo seu tamanho substancial de modelo, conjuntos de dados extensos e diversos, e o vasto poder computacional utilizado durante o treinamento, todos os quais contribuem para as habilidades emergentes dos LLMs (por exemplo, aprendizagem no contexto) que não estão presentes em modelos pequenos. Nesse contexto, a mistura de especialistas (MoE) emergiu como um método eficaz para aumentar substancialmente a capacidade do modelo com custo computacional mínimo, ganhando atenção significativa da academia e da indústria. Apesar de sua crescente prevalência, falta uma revisão sistemática e abrangente da literatura sobre MoE. Esta pesquisa busca preencher essa lacuna, servindo como um recurso essencial para pesquisadores que exploram as complexidades do MoE. Primeiramente, introduzimos brevemente a estrutura da camada MoE, seguida pela proposta de uma nova taxonomia de MoE. Em seguida, fazemos uma visão geral dos designs principais para vários modelos MoE, incluindo aspectos algorítmicos e sistêmicos, juntamente com coleções de implementações open-source disponíveis, configurações de hiperparâmetros e avaliações empíricas. Além disso, delineamos as múltiplas aplicações práticas do MoE e esboçamos algumas direções potenciais para pesquisas futuras. Para facilitar atualizações contínuas e o compartilhamento dos avanços mais recentes em pesquisa MoE, estabelecemos um repositório de recursos acessível em https://github.com/withinmiaov/A-Survey-on-Mixture-of-Experts.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Weilin Cai

Juyong Jiang

Fan Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Uma Pesquisa sobre Mistura de Especialistas

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider