Key points are not available for this paper at this time.
Mixture of Experts (MoE)는 모델 파라미터의 일부만 선택적으로 활성화하여 뛰어난 성능과 계산 효율성을 제공합니다. 전통적으로 MoE 모델은 동일한 용량의 균질한 전문가들로 구성됩니다. 하지만 입력 데이터의 복잡도가 다양하기 때문에 다양한 능력을 가진 전문가가 필요하며, 균질한 MoE는 전문가의 효율적인 전문화와 파라미터 활용에 제약을 줍니다. 본 연구에서는 전문가 크기가 다르고 따라서 다양한 용량을 가지는 새로운 이종 전문가 혼합 모델(HMoE)을 제안합니다. 이러한 이질성은 다양한 토큰 복잡도를 보다 효과적으로 처리할 수 있는 전문화된 전문가를 가능하게 합니다. 전문가 활성화 불균형 문제를 해결하기 위해 작은 전문가의 빈번한 활성화를 장려하는 새로운 학습 목표를 제안하여 계산 효율성과 파라미터 활용도를 높였습니다. 광범위한 실험 결과, HMoE는 적은 수의 활성화된 파라미터로 더 낮은 손실을 달성하며 다양한 사전학습 평가 지표에서 기존의 균질한 MoE 모델보다 우수한 성능을 보였습니다. 코드는 승인 시 공개될 예정입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
An Wang
Xingwu Sun
Ruobing Xie
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang 등(Tue,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e5b9a9b6db643587551976 — DOI: https://doi.org/10.48550/arxiv.2408.10681
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: