Los puntos clave no están disponibles para este artículo en este momento.
Los modelos de lenguaje grandes (LLM) de mezcla de expertos (MoE) tienen requisitos de memoria que a menudo exceden la capacidad de memoria de la GPU, requiriendo movimientos costosos de parámetros desde memorias secundarias a la GPU para el cómputo de expertos. En este trabajo, presentamos Mixture of Near-Data Experts (MoNDE), una solución de computación cerca del dato que habilita de manera eficiente la inferencia MoE LLM. MoNDE reduce el volumen de movimiento de parámetros MoE transfiriendo solo los expertos activos (hot experts) a la GPU, mientras computa los expertos menos activos (cold experts) dentro del dispositivo de memoria del host. Al reemplazar las transferencias masivas de parámetros expertos por las de pequeñas activaciones, MoNDE permite una inferencia MoE mucho más eficiente en comunicación, resultando en aceleraciones sustanciales respecto a los marcos existentes de descarga de parámetros para operaciones tanto de codificador como de decodificador.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tae Hyun Kim
Kwanseok Choi
Y.H. Cho
Building similarity graph...
Analyzing shared references across papers
Loading...
Kim et al. (Wed,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e67f72b6db643587608fdf — DOI: https://doi.org/10.48550/arxiv.2405.18832
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: