May 29, 2024Open Access

MoNDE: Mistura de Especialistas Próximos aos Dados para Modelos Esparsos de Grande Escala

Key Points

Key points are not available for this paper at this time.

Abstract

Modelos de linguagem grandes de Mistura de Especialistas (MoE) têm requisitos de memória que frequentemente ultrapassam a capacidade de memória da GPU, exigindo movimentação cara de parâmetros de memórias secundárias para a GPU para o cálculo dos especialistas. Neste trabalho, apresentamos Mixture of Near-Data Experts (MoNDE), uma solução de computação próxima dos dados que habilita eficientemente a inferência de MoE LLM. MoNDE reduz o volume de movimentação de parâmetros MoE transferindo apenas os especialistas ativos («hot experts») para a GPU, enquanto calcula os especialistas restantes «fracos» («cold experts») dentro da memória do host. Ao substituir as transferências massivas de parâmetros de especialistas pelas transferências de pequenas ativações, MoNDE permite uma inferência MoE muito mais eficiente em comunicação, resultando em acelerações substanciais sobre as estruturas de descarregamento de parâmetros existentes para operações tanto de codificador quanto de decodificador.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tae Hyun Kim

Kwanseok Choi

Y.H. Cho

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoNDE: Mistura de Especialistas Próximos aos Dados para Modelos Esparsos de Grande Escala

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider