파라미터 효율적 미세조정에서, 서로 다른 전문가에게 기능을 특화시키고 적절히 희소 활성화하는 전문가 혼합(MoE)은 모델 용량과 계산 부하 간의 균형을 맞추는 유망한 접근법으로 널리 채택되고 있습니다. 그러나 현재의 MoE 변형들은 전문가들이 유사한 지식을 학습할 수 있음을 간과하여 이종 데이터셋에서 한계가 있으며, 이로 인해 MoE 용량이 제대로 활용되지 못하고 있습니다. 본 논문에서는 CoMoE(Contrastive Representation for MoE)라는 새로운 방법을 제안하는데, 이는 top-k 라우팅으로 활성화된 전문가와 비활성화된 전문가를 샘플링하여 대비 학습 목표를 함께 훈련함으로써 MoE 내 모듈화와 특수화를 촉진합니다. 우리는 이러한 대비 학습 목표가 입력과 두 종류의 전문가 간 상호정보 격차를 회복함을 입증합니다. 여러 벤치마크 및 다중 작업 환경에서의 실험 결과, CoMoE가 MoE의 용량을 지속적으로 향상시키고 전문가 간의 모듈화를 촉진함을 보여줍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jinyuan Feng
Chaopeng Wei
Tenghai Qiu
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng 등(Fri,)이 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/68d4764731b076d99fa6e02f — DOI: https://doi.org/10.48550/arxiv.2505.17553
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: