Key points are not available for this paper at this time.
희소 전문가 혼합(SMoE)은 트랜스포머 기반 기초 모델의 학습 및 추론 효율성을 향상시키기 위해 널리 사용되어 왔으며, 유망한 결과를 보여주고 있습니다. 그러나 SMoE의 성능은 전문가 수와 활성화할 전문가 수(즉, top-k)와 같은 하이퍼파라미터 선택에 크게 의존하며, 다양한 하이퍼파라미터 구성을 탐색하는 모델 학습 과정에서 상당한 계산 비용이 발생합니다. 이를 해결하기 위해, 우리는 동적 전문가 혼합(DynMoE) 기법을 제안합니다. DynMoE는 (1) 각 토큰이 자동으로 활성화할 전문가 수를 결정할 수 있게 하는 새로운 게이팅 방식을 포함하고, (2) 학습 도중 전문가 수를 자동으로 조정하는 적응적 과정을 포함합니다. 비전, 언어 및 비전-언어 작업에 걸친 광범위한 수치 결과는 적은 파라미터 활성화로 효율성을 유지하면서, 비전 및 언어 작업에서는 GMoE와 경쟁력 있는 성능을, 비전-언어 작업에서는 MoE-LLaVA와 경쟁력 있는 성능을 달성하는 우리의 접근법의 효과를 입증합니다. 우리의 코드는 https://github.com/LINs-lab/DynMoE 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yongxin Guo
Zhenglin Cheng
Xiaoying Tang
Building similarity graph...
Analyzing shared references across papers
Loading...
Guo 등(목요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e68cfdb6db643587614c6b — DOI: https://doi.org/10.48550/arxiv.2405.14297
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: