Key points are not available for this paper at this time.
Mixture-of-Experts (MoE) 아키텍처는 훈련 및 추론 부담을 크게 줄일 수 있는 능력으로 인해 최근 대형 언어 모델(LLM) 분야에서 점점 인기를 얻고 있습니다. 하지만 MoE 아키텍처는 각 전문가에게 배정되는 토큰 수의 큰 불균형과 전문가 간 균질화 경향과 같은 문제에 직면해 있어 모델의 의미 생성 능력에 부정적인 영향을 미칩니다. 본 논문에서는 저부하 LocMoE의 개선된 버전인 LocMoE+를 제안하며, 다음과 같은 향상을 포함합니다: (1) 전문가와 토큰 간 친화도의 정량화 및 정의, (2) 친화도 점수를 기반으로 토큰을 재배치하는 전역 수준 적응형 라우팅 전략 구현, (3) 토큰 특징 분포 변화에 따라 점차 감소하는 것으로 나타난 전문가 용량에 대한 하한 재추정. 실험 결과, 모델 수렴성이나 효율성을 저해하지 않으면서 각 전문가가 처리하는 토큰 수를 60% 이상 줄일 수 있음을 보여줍니다. 통신 최적화와 결합할 경우 훈련 효율성이 평균 5.4%에서 46.6%까지 향상됩니다. 미세 조정 후 LocMoE+는 GDAD, C-Eval, TeleQnA 데이터셋에서 9.7%에서 14.1%까지 성능 향상을 보였습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jing Li
Zhijie Sun
Dachao Lin
Building similarity graph...
Analyzing shared references across papers
Loading...
Li 등(Thu,)이 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/68e68d03b6db643587615001 — DOI: https://doi.org/10.48550/arxiv.2406.00023
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: