April 23, 2024Open Access

Mezcla de Expertos Multi-Cabezal

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Las Mezclas Escasas de Expertos (SMoE) amplían la capacidad del modelo sin aumentos significativos en los costos de entrenamiento e inferencia, pero presentan los siguientes dos problemas: (1) Baja activación de expertos, donde sólo un subconjunto pequeño de expertos se activa para la optimización. (2) Falta de capacidades analíticas detalladas para múltiples conceptos semánticos dentro de tokens individuales. Proponemos Mezcla de Expertos Multi-Cabezal (MH-MoE), que emplea un mecanismo multi-cabezal para dividir cada token en múltiples sub-tokens. Estos sub-tokens se asignan y procesan en paralelo por un conjunto diverso de expertos, y se reintegran sin inconvenientes en la forma original del token. El mecanismo multi-cabezal permite que el modelo atienda colectivamente información desde varios espacios de representación dentro de diferentes expertos, mientras que mejora significativamente la activación de expertos, profundizando así la comprensión del contexto y aliviando el sobreajuste. Además, nuestro MH-MoE es sencillo de implementar y está desacoplado de otros métodos de optimización SMoE, facilitando su integración con otros modelos SMoE para un rendimiento mejorado. Resultados experimentales extensos en tres tareas: modelado de lenguaje enfocado en inglés, modelado de lenguaje multilingüe y tareas de modelado multimodal enmascarado, demuestran la efectividad de MH-MoE.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xun Wu

Shaohan Huang

Wenhui Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Mezcla de Expertos Multi-Cabezal

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider