컨텍스트 학습(ICL)은 트랜스포머가 파라미터 업데이트 없이도 컨텍스트 예시를 통해 새로운 작업에 적응할 수 있게 한다. 기존 연구들은 보통 고정된 복잡도 환경에서 ICL을 연구했으나, 실제 언어 모델은 다양한 복잡도 수준에 해당하는 작업을 접한다. 본 논문은 높은 복잡도 범주가 더 단순한 범주가 생성하는 모든 패턴을 완벽하게 나타낼 수 있는 계층적 작업 구조에서 트랜스포머가 어떻게 작업을 탐색하는지 조사한다. 마코프 체인과 선형 회귀를 기반으로 한 잘 제어된 테스트베드를 설계하여, 트랜스포머가 각 작업에 적합한 복잡도 수준을 식별할 뿐 아니라, 심지어 컨텍스트 예시가 여러 복잡도 가설과 호환될 때에도 대응하는 파라미터를 정확히 추론함을 보여준다. 특히 더 단순한 프로세스에서 생성된 데이터가 주어졌을 때 트랜스포머는 항상 가장 덜 복잡한 충분한 설명을 선호한다. 우리는 베이즈 프레임워크를 통해 이 행동을 이론적으로 설명하며, 트랜스포머가 모델 적합도와 복잡도 페널티 사이의 균형을 맞추어 컨텍스트 내 베이즈식 오컴의 면도날을 효과적으로 구현함을 입증한다. 추가로 모델 크기, 훈련 혼합 분포, 추론 컨텍스트 길이, 아키텍처 역할에 대해 절제 실험을 수행한다. 마지막으로, Boolean-function 작업 사례 연구에서 사전학습된 GPT-4 모델에 대한 이 오컴의 면도날 유사 귀납적 편향을 검증하며, 이는 다양한 작업 분포에 대해 훈련된 트랜스포머에 내재할 수 있음을 제안한다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Puneesh Deora
Bhavya Vasudeva
Tina Behnia
Building similarity graph...
Analyzing shared references across papers
Loading...
Deora 등은 이 질문을 연구했다.
www.synapsesocial.com/papers/68de84bf5b556a9128e1be08 — DOI: https://doi.org/10.48550/arxiv.2506.19351
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: