Key points are not available for this paper at this time.
언어 모델용 전문가 혼합(Mixture of Experts, MoE)은 각 입력 토큰을 특정 전문가 하위 집합으로 동적으로 라우팅하여 모델의 용량을 확장하는 데 효과적인 것으로 입증되었습니다. 성공에도 불구하고, 대부분의 기존 방법은 희소성과 전문가 지식 활용 가능성 사이의 균형 문제에 직면해 있습니다: 전문가 지식 활용을 증가시켜 성능을 향상시키면 전문가 선택 시 희소성이 감소하는 경향이 있습니다. 이 모순을 완화하기 위해, 우리는 Hypernetworks에 기반한 새로운 MoE 프레임워크인 HyperMoE를 제안합니다. 이 프레임워크는 MoE의 계산 과정을 다중 작업 학습에서 지식 전이 개념과 통합합니다. 선택되지 않은 전문가 정보에 기반해 생성된 특정 모듈들은 보조 정보로 작용하여, 선택되지 않은 전문가의 지식을 사용하면서 선택 희소성을 유지할 수 있도록 합니다. 여러 데이터셋과 백본에 걸친 종합적인 실험 평가에서 HyperMoE는 전문가 수에 관한 동일 조건 하에서 기존 MoE 방법을 크게 능가함을 입증하였습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Zhao
Zihan Qiu
Huijia Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Mon,)는 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e78968b6db6435876fbd8e — DOI: https://doi.org/10.48550/arxiv.2402.12656
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: