전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 거대하면서도 효율적인 대형 언어 모델(LLM) 개발을 가능하게 했습니다. 그러나 표준 결정적 라우팅 메커니즘에는 근본적인 한계가 존재하는데, 이는 모델의 오보정과 과신(overconfidence)의 주요 원인으로, 시스템이 자신이 모르는 것을 알지 못하는 경우가 자주 발생합니다. 본 논문은 이 문제에 맞서 구조화된 베이지안 MoE 라우팅 프레임워크를 제안합니다. 단일의 결정적 전문가 선택을 강제하는 대신, 본 접근법은 라우팅 결정 자체에 대한 확률 분포를 모델링합니다. 라우팅 파이프라인의 서로 다른 단계에서 이 원칙적 불확실성을 도입하는 세 가지 방법군(가중치 공간, 로짓 공간, 최종 선택 공간)을 체계적으로 조사합니다. 30억 파라미터 MoE 모델에 대한 일련의 통제된 실험을 통해, 이 프레임워크가 라우팅 안정성, 분포 내 보정, 분포 외 탐지(OoD) 측면에서 크게 향상됨을 입증합니다. 결과는 핵심 아키텍처 구성 요소를 타깃으로 함으로써 더 신뢰할 수 있는 내부 불확실성 신호를 창출할 수 있음을 보여줍니다. 본 연구는 더 견고하고 자기 인식적인 LLM을 구축하기 위한 실용적이고 계산적으로 관리 가능한 경로를 제공하며, LLM이 자신이 모르는 것을 알도록 만드는 중요한 진전을 의미합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Ang Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Ang Li (Sun,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68f5fcce8d54a28a75cf19b4 — DOI: https://doi.org/10.48550/arxiv.2509.23830
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: