August 13, 2024Open Access

혼합 전문가를 위한 층별 반복 라우터

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LLMs)의 확장은 다양한 작업에서의 능력을 혁신했으나, 이 성장은 효율적인 계산 전략과 맞물려야 합니다. Mixture-of-Experts(MoE) 아키텍처는 훈련 비용을 크게 늘리지 않으면서 모델 크기를 확장할 수 있는 능력으로 두드러집니다. 장점에도 불구하고, 현재 MoE 모델들은 종종 파라미터 비효율성을 보입니다. 예를 들어, 520억 개 파라미터를 가진 사전학습 MoE 기반 LLM이 67억 개 파라미터의 일반 모델과 유사한 성능을 보일 수 있습니다. MoE의 핵심 요소인 현재의 라우터들은 각 층에서 독립적으로 토큰을 할당하며, 과거 라우팅 정보를 활용하지 않아 최적이 아닌 토큰-전문가 조합과 파라미터 비효율 문제를 초래할 수 있습니다. 이를 해결하기 위해, 우리는 혼합 전문가를 위한 층별 반복 라우터(RMoE)를 도입합니다. RMoE는 게이트 순환 유닛(GRU)을 활용하여 연속된 층 간 라우팅 결정의 의존성을 구축합니다. 이러한 층별 반복 구조는 입력 토큰에 대해 효율적으로 병렬 계산될 수 있으며, 협상 가능한 비용을 도입합니다. 광범위한 실험 평가 결과, RMoE 기반 언어 모델은 다양한 기준 모델보다 일관되게 우수한 성능을 보였습니다. 더 나아가, RMoE는 기존 방법과 직교하는 새로운 계산 단계를 통합하여 다른 MoE 아키텍처와의 원활한 호환성을 제공합니다. 분석 결과, RMoE의 향상은 효과적인 층간 정보 공유 때문이며, 이는 전문가 선택과 다양성 또한 개선합니다. 우리의 코드는 https://github.com/qiuzh20/RMoE 에서 확인할 수 있습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zihan Qiu

Zeyu Huang

Shuang Cheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

혼합 전문가를 위한 층별 반복 라우터

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider