Los puntos clave no están disponibles para este artículo en este momento.
Los modelos grandes de lenguaje (LLMs) basados en mezcla de expertos (MoE), como los recientes Mixtral y DeepSeek-MoE, han demostrado un gran potencial para escalar el tamaño del modelo sin sufrir el crecimiento cuadrático del costo de entrenamiento de los transformers densos. Al igual que los modelos densos, entrenar MoEs requiere responder la misma pregunta: dado un presupuesto de entrenamiento, ¿cuál es la asignación óptima entre el tamaño del modelo y el número de tokens? Estudiamos la ley de escalamiento de los LLMs basados en MoE respecto a las relaciones entre el rendimiento del modelo, el tamaño del modelo, el tamaño del conjunto de datos y el grado de expertos. En consonancia con investigaciones previas que estudian MoE en diferentes contextos, observamos el rendimiento decreciente al aumentar el número de expertos, pero esto parece sugerir que deberíamos escalar el número de expertos hasta la saturación, ya que el costo de entrenamiento permanecería constante, lo cual es problemático durante el tiempo de inferencia. Proponemos enmendar la ley de escalamiento de MoE introduciendo la eficiencia de inferencia como otra métrica además de la pérdida de validación. Encontramos que los MoEs con pocos expertos (4/8) son la solución más eficiente en servicio bajo el mismo rendimiento, pero cuestan entre 2.5 y 3.5 veces más en entrenamiento. Por otro lado, entrenar un MoE de expertos (16/32) mucho más pequeño (70-85%) que la solución óptima en pérdida, pero con un conjunto de datos de entrenamiento más grande, es una configuración prometedora bajo un presupuesto de entrenamiento.
Building similarity graph...
Analyzing shared references across papers
Loading...
Longfei Yun
Yonghao Zhuang
Yao Fu
Building similarity graph...
Analyzing shared references across papers
Loading...
Yun et al. (miércoles,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e70a05b6db643587683d03 — DOI: https://doi.org/10.48550/arxiv.2404.02852
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: