Key points are not available for this paper at this time.
모델 파라미터를 늘리면서도 수행 과제 시 희소하게 활성화함으로써, 혼합 전문가(MoE) 아키텍처의 사용은 추론 비용 증가 없이 대형 언어 모델(LLMs)의 성능을 크게 향상시킵니다. 그러나 전문가 수의 증가에 따른 메모리 소비는 많은 실제 환경에서 이러한 모델의 배치를 어렵게 하는 문제입니다. 우리의 실증 연구는 일부 전문가가 사전 학습 중 중복 지식을 인코딩함을 밝혀냈습니다. 이에 우리는 유사한 전문가들을 그룹화하고 가지치기하는 방법을 제안하여 모델의 파라미터 효율성을 개선합니다. 이 방법의 효과는 두 개의 최첨단 MoE 모델인 Mixtral-8x7B와 Mixtral-8x22B를 가지치기하여 검증했습니다. 평가 결과, 이 방법은 다양한 자연어 과제에서 다른 모델 가지치기 기법들을 능가함을 보여줍니다. 향후 연구 촉진을 위해 코드와 가지치기된 MoE 모델들을 공개할 예정입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zeliang Zhang
Xiaodong Liu
Hao Cheng
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang 등(Fri,)이 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68e6087cb6db64358759c5f8 — DOI: https://doi.org/10.48550/arxiv.2407.09590
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: