August 4, 2022Open Access

딥러닝에서 전문가 혼합 모델 이해를 향하여

Key Points

Key points are not available for this paper at this time.

Abstract

Mixture-of-Experts (MoE) 계층은 라우터에 의해 제어되는 희소 활성화 모델로, 딥러닝에서 큰 성공을 거두었습니다. 그러나 이러한 아키텍처에 대한 이해는 아직 미흡합니다. 본 논문에서는 MoE 계층이 신경망 학습 성능을 어떻게 향상시키는지, 그리고 왜 혼합 모델이 단일 모델로 붕괴하지 않는지를 공식적으로 연구합니다. 우리의 실험 결과는 기저 문제의 클러스터 구조와 전문가의 비선형성이 MoE 성공에 핵심적임을 시사합니다. 이를 더 잘 이해하기 위해, 내재된 클러스터 구조를 가진 어려운 분류 문제를 고려하였으며, 이는 단일 전문가로는 학습하기 어렵습니다. 그러나 MoE 계층에서 전문가를 2층 비선형 합성곱 신경망(CNN)으로 선택하면 문제를 성공적으로 학습할 수 있음을 보여줍니다. 더 나아가, 우리의 이론은 라우터가 클러스터 중심 특징을 학습할 수 있음을 보여주며, 이는 입력된 복잡한 문제를 각각의 전문가가 해결할 수 있는 더 단순한 선형 분류 하위 문제들로 나누는 데 도움을 줍니다. 우리가 아는 한, 이것은 딥러닝을 위한 MoE 계층의 메커니즘을 공식적으로 이해한 첫 번째 결과입니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zixiang Chen

Yihe Deng

Yue Wu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

딥러닝에서 전문가 혼합 모델 이해를 향하여

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study