전문가 혼합(MoE) 아키텍처는 대형 언어 모델(LLM)을 효율적으로 확장하기 위한 핵심 전략으로 부상했습니다. 그러나 현재 MoE 시스템은 심각한 부하 불균형 문제를 겪고 있으며, 훈련 및 추론 과정에서 소수의 전문가만 일관되게 활성화되어 모델 용량과 계산 자원이 크게 저활용되고 있습니다. 본 연구에서는 클러스터링 관점에서 전문가 라우팅을 재검토하고, 기존 방식을 일반화하면서도 하위 작업 성능을 저해하지 않고 전문가 활용의 균형을 촉진하는 새로운 라우팅 프레임워크인 잠재 프로토타입 라우팅(LPR)을 제안합니다. DeepSeek-V3, Qwen3-MoE, Mixtral을 포함한 다수의 오픈소스 MoE 모델에 대한 광범위한 실험 결과, LPR은 전문가 부하의 지니 계수를 평균 0.70에서 0.035로 감소시키고, 최소-최대 전문가 부하 비율을 1e-6에서 0.70으로 개선하여 거의 완벽한 부하 분산을 달성함을 보여줍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jinge Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
Jinge Yang(목요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68f04acce559138a1a06e872 — DOI: https://doi.org/10.48550/arxiv.2506.21328
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: