부하 불균형은 mixture-of-experts(MoE) 모델 훈련에서 주요 성능 병목 현상으로, 전문가 부하의 불균형은 라우팅 붕괴를 초래할 수 있습니다. 기존 대부분의 접근법은 부하를 균형화하기 위해 보조 손실 함수를 도입하지만, 이러한 손실 함수의 하이퍼파라미터는 종종 다양한 작업에 맞춰 조정되어야 합니다. 게다가 활성화된 전문가 수가 늘어날수록 부하 불균형이 심화되는 경향이 있으며, 활성화 수를 고정하면 어려운 작업을 처리하는 모델의 신뢰도가 감소할 수 있습니다. 이러한 문제를 해결하기 위해 본 논문은 임계값 기반 동적 라우팅 알고리즘을 활용하는 동적으로 균형잡힌 라우팅 전략을 제안합니다. 각 라우팅 단계 후에 본 방법은 다음 라우팅에서 부하 분포에 영향을 주기 위해 전문가 가중치를 조정합니다. 손실 함수 기반의 균형 방법과 달리, 본 접근법은 라우팅 수준에서 직접 작동하여 모델 품질 저하를 초래할 수 있는 그래디언트 변화 없이 계산 자원을 보다 효율적으로 활용하는 동적 라우팅을 수행합니다. 자연어 이해(NLU) 벤치마크 실험에서 제안된 방법은 top-2 라우팅과 비슷한 정확도를 달성하면서 부하 표준편차를 크게 감소시켰습니다(예: MNLI에서 12.25에서 1.18로). 또한, 임계값 기반 동적 전문가 활성화는 모델 파라미터를 줄이고 전문가 간 부하 불균형 완화를 위한 새로운 관점을 제공합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jialin Wen
Xiaojun Li
Junping Yao
Frontiers in Neurorobotics
Building similarity graph...
Analyzing shared references across papers
Loading...
Wen et al.(Tue,)가 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/68f0492fe559138a1a06de7e — DOI: https://doi.org/10.3389/fnbot.2025.1590994
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: