Key points are not available for this paper at this time.
Mixture-of-Experts (MoE) 계층은 라우터에 의해 제어되는 희소 활성화 모델로, 딥러닝에서 큰 성공을 거두었습니다. 그러나 이러한 아키텍처에 대한 이해는 아직 미흡합니다. 본 논문에서는 MoE 계층이 신경망 학습 성능을 어떻게 향상시키는지, 그리고 왜 혼합 모델이 단일 모델로 붕괴하지 않는지를 공식적으로 연구합니다. 우리의 실험 결과는 기저 문제의 클러스터 구조와 전문가의 비선형성이 MoE 성공에 핵심적임을 시사합니다. 이를 더 잘 이해하기 위해, 내재된 클러스터 구조를 가진 어려운 분류 문제를 고려하였으며, 이는 단일 전문가로는 학습하기 어렵습니다. 그러나 MoE 계층에서 전문가를 2층 비선형 합성곱 신경망(CNN)으로 선택하면 문제를 성공적으로 학습할 수 있음을 보여줍니다. 더 나아가, 우리의 이론은 라우터가 클러스터 중심 특징을 학습할 수 있음을 보여주며, 이는 입력된 복잡한 문제를 각각의 전문가가 해결할 수 있는 더 단순한 선형 분류 하위 문제들로 나누는 데 도움을 줍니다. 우리가 아는 한, 이것은 딥러닝을 위한 MoE 계층의 메커니즘을 공식적으로 이해한 첫 번째 결과입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zixiang Chen
Yihe Deng
Yue Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen 외(목,)가 이 문제를 연구했습니다.
www.synapsesocial.com/papers/6a08e3f627ceb0c2a2d611f6 — DOI: https://doi.org/10.48550/arxiv.2208.02813