What type of study is this?

This is a Quantitative Study study.

September 23, 2025Open Access

CoMoE: Representación contrastiva para mezcla de expertos en ajuste fino eficiente en parámetros

Puntos clave

CoMoE mejora la capacidad de la mezcla de expertos, promoviendo una mejor especialización entre expertos durante el entrenamiento del modelo.
Los experimentos demostraron mejoras en varios puntos de referencia, sugiriendo un rendimiento mejorado en conjuntos de datos heterogéneos.
El método usa un objetivo contrastivo que recupera las brechas de información entre expertos activados e inactivos.
El estudio enfatiza la importancia del entrenamiento efectivo de módulos para el uso óptimo de la capacidad de los expertos.

Resumen

En el ajuste fino eficiente en parámetros, la mezcla de expertos (MoE), que implica especializar funcionalidades en diferentes expertos y activarlos de manera dispersa y adecuada, ha sido ampliamente adoptada como un enfoque prometedor para equilibrar la capacidad del modelo y la sobrecarga computacional. Sin embargo, las variantes actuales de MoE no funcionan bien con conjuntos de datos heterogéneos, ignorando el hecho de que los expertos pueden aprender conocimientos similares, lo que resulta en un uso insuficiente de la capacidad de MoE. En este artículo, proponemos Representación Contrastiva para MoE (CoMoE), un método novedoso para promover la modularización y especialización en MoE, donde los expertos se entrenan junto con un objetivo contrastivo muestreando expertos activados e inactivos en el enrutamiento top-k. Demostramos que dicho objetivo contrastivo recupera la brecha de información mutua entre las entradas y los dos tipos de expertos. Experimentos en varios puntos de referencia y en configuraciones multitarea demuestran que CoMoE puede mejorar consistentemente la capacidad de MoE y promover la modularización entre los expertos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jinyuan Feng

Chaopeng Wei

Tenghai Qiu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

CoMoE: Representación contrastiva para mezcla de expertos en ajuste fino eficiente en parámetros

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider