What type of study is this?

This is a Quantitative Study study.

October 20, 2025Open Access

베이지안 전문가 혼합: LLM이 모르는 것을 알게 하기 위한 접근

Key Points

이 프레임워크는 대형 언어 모델에서 라우팅 안정성과 보정 능력을 크게 향상시킵니다.
통제된 실험을 통해 30억 파라미터 모델에서 분포 외 탐지 능력 향상을 확인했습니다.
베이지안 접근법은 라우팅 과정에 불확실성을 도입하여 기존 모델의 취약성을 해결합니다.
개선된 아키텍처 구성 요소는 대형 언어 모델에서 더 견고하고 인식 있는 메커니즘을 만듭니다.

Abstract

전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 거대하면서도 효율적인 대형 언어 모델(LLM) 개발을 가능하게 했습니다. 그러나 표준 결정적 라우팅 메커니즘에는 근본적인 한계가 존재하는데, 이는 모델의 오보정과 과신(overconfidence)의 주요 원인으로, 시스템이 자신이 모르는 것을 알지 못하는 경우가 자주 발생합니다. 본 논문은 이 문제에 맞서 구조화된 베이지안 MoE 라우팅 프레임워크를 제안합니다. 단일의 결정적 전문가 선택을 강제하는 대신, 본 접근법은 라우팅 결정 자체에 대한 확률 분포를 모델링합니다. 라우팅 파이프라인의 서로 다른 단계에서 이 원칙적 불확실성을 도입하는 세 가지 방법군(가중치 공간, 로짓 공간, 최종 선택 공간)을 체계적으로 조사합니다. 30억 파라미터 MoE 모델에 대한 일련의 통제된 실험을 통해, 이 프레임워크가 라우팅 안정성, 분포 내 보정, 분포 외 탐지(OoD) 측면에서 크게 향상됨을 입증합니다. 결과는 핵심 아키텍처 구성 요소를 타깃으로 함으로써 더 신뢰할 수 있는 내부 불확실성 신호를 창출할 수 있음을 보여줍니다. 본 연구는 더 견고하고 자기 인식적인 LLM을 구축하기 위한 실용적이고 계산적으로 관리 가능한 경로를 제공하며, LLM이 자신이 모르는 것을 알도록 만드는 중요한 진전을 의미합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Ang Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

베이지안 전문가 혼합: LLM이 모르는 것을 알게 하기 위한 접근

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider