May 23, 2024Open Access

동적 전문가 혼합: 효율적인 트랜스포머 모델을 위한 자동 조정 접근법

Key Points

Key points are not available for this paper at this time.

Abstract

희소 전문가 혼합(SMoE)은 트랜스포머 기반 기초 모델의 학습 및 추론 효율성을 향상시키기 위해 널리 사용되어 왔으며, 유망한 결과를 보여주고 있습니다. 그러나 SMoE의 성능은 전문가 수와 활성화할 전문가 수(즉, top-k)와 같은 하이퍼파라미터 선택에 크게 의존하며, 다양한 하이퍼파라미터 구성을 탐색하는 모델 학습 과정에서 상당한 계산 비용이 발생합니다. 이를 해결하기 위해, 우리는 동적 전문가 혼합(DynMoE) 기법을 제안합니다. DynMoE는 (1) 각 토큰이 자동으로 활성화할 전문가 수를 결정할 수 있게 하는 새로운 게이팅 방식을 포함하고, (2) 학습 도중 전문가 수를 자동으로 조정하는 적응적 과정을 포함합니다. 비전, 언어 및 비전-언어 작업에 걸친 광범위한 수치 결과는 적은 파라미터 활성화로 효율성을 유지하면서, 비전 및 언어 작업에서는 GMoE와 경쟁력 있는 성능을, 비전-언어 작업에서는 MoE-LLaVA와 경쟁력 있는 성능을 달성하는 우리의 접근법의 효과를 입증합니다. 우리의 코드는 https://github.com/LINs-lab/DynMoE 에서 확인할 수 있습니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yongxin Guo

Zhenglin Cheng

Xiaoying Tang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

동적 전문가 혼합: 효율적인 트랜스포머 모델을 위한 자동 조정 접근법

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider