July 12, 2024Open Access

과제 비의존적 가지치기를 위한 전문가 지식의 다양화: 희소 혼합 전문가(MoE) 모델에서

Key Points

Key points are not available for this paper at this time.

Abstract

모델 파라미터를 늘리면서도 수행 과제 시 희소하게 활성화함으로써, 혼합 전문가(MoE) 아키텍처의 사용은 추론 비용 증가 없이 대형 언어 모델(LLMs)의 성능을 크게 향상시킵니다. 그러나 전문가 수의 증가에 따른 메모리 소비는 많은 실제 환경에서 이러한 모델의 배치를 어렵게 하는 문제입니다. 우리의 실증 연구는 일부 전문가가 사전 학습 중 중복 지식을 인코딩함을 밝혀냈습니다. 이에 우리는 유사한 전문가들을 그룹화하고 가지치기하는 방법을 제안하여 모델의 파라미터 효율성을 개선합니다. 이 방법의 효과는 두 개의 최첨단 MoE 모델인 Mixtral-8x7B와 Mixtral-8x22B를 가지치기하여 검증했습니다. 평가 결과, 이 방법은 다양한 자연어 과제에서 다른 모델 가지치기 기법들을 능가함을 보여줍니다. 향후 연구 촉진을 위해 코드와 가지치기된 MoE 모델들을 공개할 예정입니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zeliang Zhang

Xiaodong Liu

Hao Cheng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

과제 비의존적 가지치기를 위한 전문가 지식의 다양화: 희소 혼합 전문가(MoE) 모델에서

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider