July 13, 2024Open Access

MaskMoE: 전문가 혼합 모델에서 라우팅 마스크를 통한 토큰 수준 학습 향상

Key Points

Key points are not available for this paper at this time.

Abstract

모델 용량 확장은 기능을 향상시키지만 계산량이 크게 증가합니다. 전문가 혼합 모델(Mixture-of-Experts, MoEs)은 학습 또는 추론 비용을 크게 늘리지 않으면서 모델 용량을 확장할 수 있도록 하여 이 문제를 해결합니다. 유망한 결과에도 불구하고, MoE 모델은 여러 도전을 겪습니다. 주로, 학습 토큰이 여러 전문가에게 분산되면 특히 드문 토큰에 대해 과소적합이 발생할 수 있습니다. 또한, 고정 라우팅 메커니즘은 이 문제를 완화할 수 있지만, 표현의 다양성을 저해합니다. 본 논문에서는 전문가 혼합 모델 내에서 라우팅 마스킹 기법을 활용하여 토큰 수준 학습을 향상시키는 방법인 MaskMoE를 제안합니다. MaskMoE는 표현 다양성을 유지하면서 보다 포괄적인 학습을 달성할 수 있습니다. 실험 결과, 본 방법이 기존의 주요 전문가 혼합 모델들보다 혼란도(PPL)와 다운스트림 작업 모두에서 우수한 성능을 보임을 입증하였습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhenpeng Su

Zijia Lin

Xue Bai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MaskMoE: 전문가 혼합 모델에서 라우팅 마스크를 통한 토큰 수준 학습 향상

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider