What type of study is this?

This is a Quantitative Study study (also classified as: Experimental Study).

October 2, 2025Open Access

컨텍스트 내 오컴의 면도날: 트랜스포머는 어떻게 즉석에서 더 간단한 가설을 선호하는가

Key Points

트랜스포머는 작업이 복잡한 패턴으로 표현될 수 있을 때에도 더 단순한 가설을 선호한다.
잘 제어된 테스트베드를 활용하여 트랜스포머는 일관되게 작업에 적합한 복잡도 수준을 식별한다.
본 연구는 베이즈 프레임워크를 이용해 모델 적합에서 오컴의 면도날을 효과적으로 활용하는 방식을 설명한다.
사전학습된 GPT-4 모델에 대한 검증은 이 귀납적 편향이 트랜스포머에 근본적일 수 있음을 나타낸다.

Abstract

컨텍스트 학습(ICL)은 트랜스포머가 파라미터 업데이트 없이도 컨텍스트 예시를 통해 새로운 작업에 적응할 수 있게 한다. 기존 연구들은 보통 고정된 복잡도 환경에서 ICL을 연구했으나, 실제 언어 모델은 다양한 복잡도 수준에 해당하는 작업을 접한다. 본 논문은 높은 복잡도 범주가 더 단순한 범주가 생성하는 모든 패턴을 완벽하게 나타낼 수 있는 계층적 작업 구조에서 트랜스포머가 어떻게 작업을 탐색하는지 조사한다. 마코프 체인과 선형 회귀를 기반으로 한 잘 제어된 테스트베드를 설계하여, 트랜스포머가 각 작업에 적합한 복잡도 수준을 식별할 뿐 아니라, 심지어 컨텍스트 예시가 여러 복잡도 가설과 호환될 때에도 대응하는 파라미터를 정확히 추론함을 보여준다. 특히 더 단순한 프로세스에서 생성된 데이터가 주어졌을 때 트랜스포머는 항상 가장 덜 복잡한 충분한 설명을 선호한다. 우리는 베이즈 프레임워크를 통해 이 행동을 이론적으로 설명하며, 트랜스포머가 모델 적합도와 복잡도 페널티 사이의 균형을 맞추어 컨텍스트 내 베이즈식 오컴의 면도날을 효과적으로 구현함을 입증한다. 추가로 모델 크기, 훈련 혼합 분포, 추론 컨텍스트 길이, 아키텍처 역할에 대해 절제 실험을 수행한다. 마지막으로, Boolean-function 작업 사례 연구에서 사전학습된 GPT-4 모델에 대한 이 오컴의 면도날 유사 귀납적 편향을 검증하며, 이는 다양한 작업 분포에 대해 훈련된 트랜스포머에 내재할 수 있음을 제안한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Puneesh Deora

Bhavya Vasudeva

Tina Behnia

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

컨텍스트 내 오컴의 면도날: 트랜스포머는 어떻게 즉석에서 더 간단한 가설을 선호하는가

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider