May 31, 2024Open Access

비구조적 데이터 학습에서 인컨텍스트 학습이 어떻게 나타나는가: 공출현, 위치 정보 및 잡음 구조의 역할에 관하여

Key Points

Key points are not available for this paper at this time.

Abstract

트랜스포머와 같은 대형 언어 모델(LLM)은 인컨텍스트 학습(ICL) 능력이 뛰어납니다; 이들은 매개변수를 업데이트하지 않고 프롬프트 내 입력-출력 시퀀스를 기반으로 새로운 쿼리에 대한 예측을 생성할 수 있습니다. 많은 이론들이 ICL을 설명하려 시도했으나, 대개 회귀와 같이 ICL 작업과 유사한 구조화된 학습 데이터에 집중했습니다. 그러나 실제로 이 모델들은 비지도 방식으로 비구조적 텍스트 데이터에서 학습되며, 이는 ICL 작업과 거의 유사성이 없습니다. 이에 우리는 비구조적 데이터에서의 비지도 학습으로부터 ICL이 어떻게 발생하는지 조사합니다. 핵심 관찰은 연속 단어 가방(CBOW)과 같은 고전적 언어 모델을 사용한 공출현 정보 모델링만으로도 ICL이 나타날 수 있다는 점이며, 이를 이론적으로 증명하고 실험적으로 검증합니다. 더 나아가, 미지 데이터에 대한 ICL 일반화를 위해 위치 정보와 잡음 구조의 필요성을 확립합니다. 마지막으로 ICL이 실패하는 사례들을 제시하고 이론적 설명을 제공하는데, 이는 LLM의 특정 작업 식별 능력이 학습 데이터 구조에 민감할 수 있음을 시사합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Kevin Christian Wibisono

Yixin Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

비구조적 데이터 학습에서 인컨텍스트 학습이 어떻게 나타나는가: 공출현, 위치 정보 및 잡음 구조의 역할에 관하여

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider