En el ajuste fino eficiente en parámetros, la mezcla de expertos (MoE), que implica especializar funcionalidades en diferentes expertos y activarlos de manera dispersa y adecuada, ha sido ampliamente adoptada como un enfoque prometedor para equilibrar la capacidad del modelo y la sobrecarga computacional. Sin embargo, las variantes actuales de MoE no funcionan bien con conjuntos de datos heterogéneos, ignorando el hecho de que los expertos pueden aprender conocimientos similares, lo que resulta en un uso insuficiente de la capacidad de MoE. En este artículo, proponemos Representación Contrastiva para MoE (CoMoE), un método novedoso para promover la modularización y especialización en MoE, donde los expertos se entrenan junto con un objetivo contrastivo muestreando expertos activados e inactivos en el enrutamiento top-k. Demostramos que dicho objetivo contrastivo recupera la brecha de información mutua entre las entradas y los dos tipos de expertos. Experimentos en varios puntos de referencia y en configuraciones multitarea demuestran que CoMoE puede mejorar consistentemente la capacidad de MoE y promover la modularización entre los expertos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jinyuan Feng
Chaopeng Wei
Tenghai Qiu
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng et al. (Vie,) estudiaron esta cuestión.
www.synapsesocial.com/papers/68d4764731b076d99fa6e02f — DOI: https://doi.org/10.48550/arxiv.2505.17553
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: