Key points are not available for this paper at this time.
모델 용량 확장은 기능을 향상시키지만 계산량이 크게 증가합니다. 전문가 혼합 모델(Mixture-of-Experts, MoEs)은 학습 또는 추론 비용을 크게 늘리지 않으면서 모델 용량을 확장할 수 있도록 하여 이 문제를 해결합니다. 유망한 결과에도 불구하고, MoE 모델은 여러 도전을 겪습니다. 주로, 학습 토큰이 여러 전문가에게 분산되면 특히 드문 토큰에 대해 과소적합이 발생할 수 있습니다. 또한, 고정 라우팅 메커니즘은 이 문제를 완화할 수 있지만, 표현의 다양성을 저해합니다. 본 논문에서는 전문가 혼합 모델 내에서 라우팅 마스킹 기법을 활용하여 토큰 수준 학습을 향상시키는 방법인 MaskMoE를 제안합니다. MaskMoE는 표현 다양성을 유지하면서 보다 포괄적인 학습을 달성할 수 있습니다. 실험 결과, 본 방법이 기존의 주요 전문가 혼합 모델들보다 혼란도(PPL)와 다운스트림 작업 모두에서 우수한 성능을 보임을 입증하였습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhenpeng Su
Zijia Lin
Xue Bai
Building similarity graph...
Analyzing shared references across papers
Loading...
Su 외 (Sat,)가 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e60780b6db64358759aa10 — DOI: https://doi.org/10.48550/arxiv.2407.09816
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: