May 23, 2024Open Access

LocMoE+: 효율적인 LLM 사전학습을 위한 토큰 특징 인식 강화 라우터

Key Points

Key points are not available for this paper at this time.

Abstract

Mixture-of-Experts (MoE) 아키텍처는 훈련 및 추론 부담을 크게 줄일 수 있는 능력으로 인해 최근 대형 언어 모델(LLM) 분야에서 점점 인기를 얻고 있습니다. 하지만 MoE 아키텍처는 각 전문가에게 배정되는 토큰 수의 큰 불균형과 전문가 간 균질화 경향과 같은 문제에 직면해 있어 모델의 의미 생성 능력에 부정적인 영향을 미칩니다. 본 논문에서는 저부하 LocMoE의 개선된 버전인 LocMoE+를 제안하며, 다음과 같은 향상을 포함합니다: (1) 전문가와 토큰 간 친화도의 정량화 및 정의, (2) 친화도 점수를 기반으로 토큰을 재배치하는 전역 수준 적응형 라우팅 전략 구현, (3) 토큰 특징 분포 변화에 따라 점차 감소하는 것으로 나타난 전문가 용량에 대한 하한 재추정. 실험 결과, 모델 수렴성이나 효율성을 저해하지 않으면서 각 전문가가 처리하는 토큰 수를 60% 이상 줄일 수 있음을 보여줍니다. 통신 최적화와 결합할 경우 훈련 효율성이 평균 5.4%에서 46.6%까지 향상됩니다. 미세 조정 후 LocMoE+는 GDAD, C-Eval, TeleQnA 데이터셋에서 9.7%에서 14.1%까지 성능 향상을 보였습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jing Li

Zhijie Sun

Dachao Lin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LocMoE+: 효율적인 LLM 사전학습을 위한 토큰 특징 인식 강화 라우터

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider