Key points are not available for this paper at this time.
트랜스포머와 같은 대형 언어 모델(LLM)은 인컨텍스트 학습(ICL) 능력이 뛰어납니다; 이들은 매개변수를 업데이트하지 않고 프롬프트 내 입력-출력 시퀀스를 기반으로 새로운 쿼리에 대한 예측을 생성할 수 있습니다. 많은 이론들이 ICL을 설명하려 시도했으나, 대개 회귀와 같이 ICL 작업과 유사한 구조화된 학습 데이터에 집중했습니다. 그러나 실제로 이 모델들은 비지도 방식으로 비구조적 텍스트 데이터에서 학습되며, 이는 ICL 작업과 거의 유사성이 없습니다. 이에 우리는 비구조적 데이터에서의 비지도 학습으로부터 ICL이 어떻게 발생하는지 조사합니다. 핵심 관찰은 연속 단어 가방(CBOW)과 같은 고전적 언어 모델을 사용한 공출현 정보 모델링만으로도 ICL이 나타날 수 있다는 점이며, 이를 이론적으로 증명하고 실험적으로 검증합니다. 더 나아가, 미지 데이터에 대한 ICL 일반화를 위해 위치 정보와 잡음 구조의 필요성을 확립합니다. 마지막으로 ICL이 실패하는 사례들을 제시하고 이론적 설명을 제공하는데, 이는 LLM의 특정 작업 식별 능력이 학습 데이터 구조에 민감할 수 있음을 시사합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kevin Christian Wibisono
Yixin Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Wibisono 등(Fri,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e67860b6db643587602bf4 — DOI: https://doi.org/10.48550/arxiv.2406.00131
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: