April 3, 2024Open Access

Hacia modelos de lenguaje grandes de mezcla de expertos óptimos para inferencia

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Los modelos grandes de lenguaje (LLMs) basados en mezcla de expertos (MoE), como los recientes Mixtral y DeepSeek-MoE, han demostrado un gran potencial para escalar el tamaño del modelo sin sufrir el crecimiento cuadrático del costo de entrenamiento de los transformers densos. Al igual que los modelos densos, entrenar MoEs requiere responder la misma pregunta: dado un presupuesto de entrenamiento, ¿cuál es la asignación óptima entre el tamaño del modelo y el número de tokens? Estudiamos la ley de escalamiento de los LLMs basados en MoE respecto a las relaciones entre el rendimiento del modelo, el tamaño del modelo, el tamaño del conjunto de datos y el grado de expertos. En consonancia con investigaciones previas que estudian MoE en diferentes contextos, observamos el rendimiento decreciente al aumentar el número de expertos, pero esto parece sugerir que deberíamos escalar el número de expertos hasta la saturación, ya que el costo de entrenamiento permanecería constante, lo cual es problemático durante el tiempo de inferencia. Proponemos enmendar la ley de escalamiento de MoE introduciendo la eficiencia de inferencia como otra métrica además de la pérdida de validación. Encontramos que los MoEs con pocos expertos (4/8) son la solución más eficiente en servicio bajo el mismo rendimiento, pero cuestan entre 2.5 y 3.5 veces más en entrenamiento. Por otro lado, entrenar un MoE de expertos (16/32) mucho más pequeño (70-85%) que la solución óptima en pérdida, pero con un conjunto de datos de entrenamiento más grande, es una configuración prometedora bajo un presupuesto de entrenamiento.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Longfei Yun

Yonghao Zhuang

Yao Fu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Hacia modelos de lenguaje grandes de mezcla de expertos óptimos para inferencia

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider