Los puntos clave no están disponibles para este artículo en este momento.
Las Mezclas Escasas de Expertos (SMoE) amplían la capacidad del modelo sin aumentos significativos en los costos de entrenamiento e inferencia, pero presentan los siguientes dos problemas: (1) Baja activación de expertos, donde sólo un subconjunto pequeño de expertos se activa para la optimización. (2) Falta de capacidades analíticas detalladas para múltiples conceptos semánticos dentro de tokens individuales. Proponemos Mezcla de Expertos Multi-Cabezal (MH-MoE), que emplea un mecanismo multi-cabezal para dividir cada token en múltiples sub-tokens. Estos sub-tokens se asignan y procesan en paralelo por un conjunto diverso de expertos, y se reintegran sin inconvenientes en la forma original del token. El mecanismo multi-cabezal permite que el modelo atienda colectivamente información desde varios espacios de representación dentro de diferentes expertos, mientras que mejora significativamente la activación de expertos, profundizando así la comprensión del contexto y aliviando el sobreajuste. Además, nuestro MH-MoE es sencillo de implementar y está desacoplado de otros métodos de optimización SMoE, facilitando su integración con otros modelos SMoE para un rendimiento mejorado. Resultados experimentales extensos en tres tareas: modelado de lenguaje enfocado en inglés, modelado de lenguaje multilingüe y tareas de modelado multimodal enmascarado, demuestran la efectividad de MH-MoE.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xun Wu
Shaohan Huang
Wenhui Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Wu et al. (Tue,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68e6df92b6db64358765af83 — DOI: https://doi.org/10.48550/arxiv.2404.15045
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: