Mixture-of-Experts(MoE) 모델은 비전 아키텍처를 효율적으로 확장하는 유망한 방향으로 부상하고 있습니다. 이 중 Soft MoE는 각 토큰을 연속적인 할당 가중치를 통해 모든 전문가에게 배정하여 학습 안정성을 향상시킵니다. 그러나 현재 설계는 이 가중치에 암묵적으로 인코딩된 의미적 구조를 간과하여 최적 이하의 전문가 라우팅을 초래합니다. 본 논문에서는 Soft MoE의 할당 가중치가 본질적으로 세분화와 유사한 패턴을 보이지만 의미적 영역과 명확히 정렬되지 않음을 발견했습니다. 이에 착안하여 전경 안내 강화 전략을 제안합니다. 구체적으로, 전문가 활성화를 의미적 전경 영역과 정렬되도록 장려하는 공간 인지 보조 손실을 도입했습니다. 이 지도학습을 더욱 강화하기 위해, 경로 연결에서 정보 흐름을 개선하고 최적화를 안정화하는 경량의 LayerScale 메커니즘을 통합했습니다. 본 방법은 사소한 아키텍처 조정만 필요하며 기존 Soft MoE 프레임워크에 원활히 통합될 수 있습니다. ImageNet-1K와 여러 소규모 분류 벤치마크에서의 포괄적 실험은 일관된 성능 개선뿐 아니라 보다 해석 가능한 전문가 라우팅 메커니즘을 보여줍니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen Min
Wei Wang
Yahui Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
민 등(Sat,)이 이 문제를 연구하였습니다.
www.synapsesocial.com/papers/68da58d8c1728099cfd11152 — DOI: https://doi.org/10.48550/arxiv.2505.18586
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: