Key points are not available for this paper at this time.
전문가 혼합체(Mixture-of-Experts, MoE)는 대형 언어 모델(LLMs)의 확장에 유망한 프레임워크로 점차 인기를 얻고 있습니다. 그러나 대규모 환경에서 MoE를 처음부터 학습하는 것은 데이터 요구량이 많고 불안정성 문제를 겪고 있습니다. 이러한 한계에 영감을 받아, 우리는 기존의 밀집형 대형 언어 모델에서 MoE 모델을 구축하는 방안을 연구합니다. 구체적으로, 잘 알려진 LLaMA-2 7B 모델을 바탕으로 다음과 같이 MoE 모델을 획득합니다: (1) 전문가 구성(Expert Construction)으로 기존의 전방전달망(Feed-Forward Networks, FFNs) 파라미터를 여러 전문가로 분할; (2) 계속적인 사전학습(Continual Pre-training)으로 변환된 MoE 모델과 추가 게이트 네트워크를 추가 학습. 본 논문에서는 전문가 구성 방법과 계속적인 사전학습을 위한 다양한 데이터 샘플링 전략을 종합적으로 탐구합니다. 이 단계들을 거친 후, LLaMA-MoE 모델은 언어 능력을 유지하면서 입력 토큰을 특정 전문가에게 경로를 지정하고 일부 파라미터만 활성화합니다. 실험적으로, 200B 토큰 학습 후 LLaMA-MoE-3.5B 모델은 유사한 활성화 파라미터 수를 가진 밀집형 모델을 크게 능가합니다. 소스 코드와 모델은 https://github.com/pjlab-sys4nlp/llama-moe 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Tong Zhu
Xiaoye Qu
Daize Dong
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhu 등(월요일)은 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e63901b6db6435875ca741 — DOI: https://doi.org/10.48550/arxiv.2406.16554
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: