What type of study is this?

This is a Experimental Study study.

September 29, 2025Open Access

전문가 안내: 효율적이고 집중된 MoE 라우팅을 위한 의미적 선행 지식

Key Points

제안된 방법은 전문가 라우팅을 크게 향상시켜 모델의 효율성과 해석 가능성을 증대시킵니다.
실험 결과 ImageNet-1K 등 다양한 벤치마크에서 일관된 성능 향상을 보여줍니다.
본 방법은 공간 인지 보조 손실을 통합하여 전문가 활성화를 의미적 영역과 정렬시켜 더 나은 라우팅을 달성합니다.
사소한 아키텍처 조정이 필요하며, 기존 프레임워크에서 정보 흐름 향상과 최적화 안정화를 실현합니다.

Abstract

Mixture-of-Experts(MoE) 모델은 비전 아키텍처를 효율적으로 확장하는 유망한 방향으로 부상하고 있습니다. 이 중 Soft MoE는 각 토큰을 연속적인 할당 가중치를 통해 모든 전문가에게 배정하여 학습 안정성을 향상시킵니다. 그러나 현재 설계는 이 가중치에 암묵적으로 인코딩된 의미적 구조를 간과하여 최적 이하의 전문가 라우팅을 초래합니다. 본 논문에서는 Soft MoE의 할당 가중치가 본질적으로 세분화와 유사한 패턴을 보이지만 의미적 영역과 명확히 정렬되지 않음을 발견했습니다. 이에 착안하여 전경 안내 강화 전략을 제안합니다. 구체적으로, 전문가 활성화를 의미적 전경 영역과 정렬되도록 장려하는 공간 인지 보조 손실을 도입했습니다. 이 지도학습을 더욱 강화하기 위해, 경로 연결에서 정보 흐름을 개선하고 최적화를 안정화하는 경량의 LayerScale 메커니즘을 통합했습니다. 본 방법은 사소한 아키텍처 조정만 필요하며 기존 Soft MoE 프레임워크에 원활히 통합될 수 있습니다. ImageNet-1K와 여러 소규모 분류 벤치마크에서의 포괄적 실험은 일관된 성능 개선뿐 아니라 보다 해석 가능한 전문가 라우팅 메커니즘을 보여줍니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chen Min

Wei Wang

Yahui Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

전문가 안내: 효율적이고 집중된 MoE 라우팅을 위한 의미적 선행 지식

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider