What type of study is this?

This is a Quantitative Study study.

October 16, 2025Open Access

MoE의 동적 라우팅을 위한 적응형 전문가 가중치 기반 부하 분산 체계

Key Points

제안된 방법은 MNLI에서 부하 표준편차를 12.25에서 1.18로 감소시켜 성능을 향상시켰습니다.
이 동적 라우팅 전략은 각 단계 후에 전문가 가중치를 조정하여 효과적으로 부하를 균형화합니다.
자연어 이해 벤치마크 실험에서 top-2 라우팅과 유사한 정확도를 보였습니다.
이 접근법은 라우팅 수준에서 직접 부하 불균형을 완화하여 그래디언트 관련 문제를 피합니다.

Abstract

부하 불균형은 mixture-of-experts(MoE) 모델 훈련에서 주요 성능 병목 현상으로, 전문가 부하의 불균형은 라우팅 붕괴를 초래할 수 있습니다. 기존 대부분의 접근법은 부하를 균형화하기 위해 보조 손실 함수를 도입하지만, 이러한 손실 함수의 하이퍼파라미터는 종종 다양한 작업에 맞춰 조정되어야 합니다. 게다가 활성화된 전문가 수가 늘어날수록 부하 불균형이 심화되는 경향이 있으며, 활성화 수를 고정하면 어려운 작업을 처리하는 모델의 신뢰도가 감소할 수 있습니다. 이러한 문제를 해결하기 위해 본 논문은 임계값 기반 동적 라우팅 알고리즘을 활용하는 동적으로 균형잡힌 라우팅 전략을 제안합니다. 각 라우팅 단계 후에 본 방법은 다음 라우팅에서 부하 분포에 영향을 주기 위해 전문가 가중치를 조정합니다. 손실 함수 기반의 균형 방법과 달리, 본 접근법은 라우팅 수준에서 직접 작동하여 모델 품질 저하를 초래할 수 있는 그래디언트 변화 없이 계산 자원을 보다 효율적으로 활용하는 동적 라우팅을 수행합니다. 자연어 이해(NLU) 벤치마크 실험에서 제안된 방법은 top-2 라우팅과 비슷한 정확도를 달성하면서 부하 표준편차를 크게 감소시켰습니다(예: MNLI에서 12.25에서 1.18로). 또한, 임계값 기반 동적 전문가 활성화는 모델 파라미터를 줄이고 전문가 간 부하 불균형 완화를 위한 새로운 관점을 제공합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jialin Wen

Xiaojun Li

Junping Yao

Journals

Frontiers in Neurorobotics

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MoE의 동적 라우팅을 위한 적응형 전문가 가중치 기반 부하 분산 체계

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider