Key points are not available for this paper at this time.
Modelos de linguagem grandes de Mistura de Especialistas (MoE) têm requisitos de memória que frequentemente ultrapassam a capacidade de memória da GPU, exigindo movimentação cara de parâmetros de memórias secundárias para a GPU para o cálculo dos especialistas. Neste trabalho, apresentamos Mixture of Near-Data Experts (MoNDE), uma solução de computação próxima dos dados que habilita eficientemente a inferência de MoE LLM. MoNDE reduz o volume de movimentação de parâmetros MoE transferindo apenas os especialistas ativos («hot experts») para a GPU, enquanto calcula os especialistas restantes «fracos» («cold experts») dentro da memória do host. Ao substituir as transferências massivas de parâmetros de especialistas pelas transferências de pequenas ativações, MoNDE permite uma inferência MoE muito mais eficiente em comunicação, resultando em acelerações substanciais sobre as estruturas de descarregamento de parâmetros existentes para operações tanto de codificador quanto de decodificador.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tae Hyun Kim
Kwanseok Choi
Y.H. Cho
Building similarity graph...
Analyzing shared references across papers
Loading...
Kim et al. (Qua,) estudaram essa questão.
www.synapsesocial.com/papers/68e67f72b6db643587608fdf — DOI: https://doi.org/10.48550/arxiv.2405.18832
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: