May 29, 2024Open Access

MoNDE: Mezcla de Expertos Cerca de los Datos para Modelos Dispersos a Gran Escala

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos de lenguaje grandes (LLM) de mezcla de expertos (MoE) tienen requisitos de memoria que a menudo exceden la capacidad de memoria de la GPU, requiriendo movimientos costosos de parámetros desde memorias secundarias a la GPU para el cómputo de expertos. En este trabajo, presentamos Mixture of Near-Data Experts (MoNDE), una solución de computación cerca del dato que habilita de manera eficiente la inferencia MoE LLM. MoNDE reduce el volumen de movimiento de parámetros MoE transfiriendo solo los expertos activos (hot experts) a la GPU, mientras computa los expertos menos activos (cold experts) dentro del dispositivo de memoria del host. Al reemplazar las transferencias masivas de parámetros expertos por las de pequeñas activaciones, MoNDE permite una inferencia MoE mucho más eficiente en comunicación, resultando en aceleraciones sustanciales respecto a los marcos existentes de descarga de parámetros para operaciones tanto de codificador como de decodificador.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Tae Hyun Kim

Kwanseok Choi

Y.H. Cho

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoNDE: Mezcla de Expertos Cerca de los Datos para Modelos Dispersos a Gran Escala

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider