April 16, 2024Open Access

다수 샷 인컨텍스트 학습

Key Points

Key points are not available for this paper at this time.

Abstract

대형 언어 모델(LLM)은 소수 샷 인컨텍스트 학습(ICL)에 뛰어납니다 -- 추론 시 맥락에서 제공된 몇 가지 예제로부터 학습하며, 가중치 업데이트 없이 수행됩니다. 새롭게 확장된 컨텍스트 윈도우는 수백 또는 수천 개의 예제를 사용하는 다수 샷 영역의 ICL을 탐구할 수 있게 합니다. 소수 샷에서 다수 샷으로 전환할 때, 우리는 다양한 생성 및 판별 과제 전반에 걸쳐 성능 향상을 관찰합니다. 유망하지만, 다수 샷 ICL은 인간이 생성한 예제의 양에 의해 병목 현상이 발생할 수 있습니다. 이 제한을 완화하기 위해 두 가지 새로운 설정을 탐구합니다: 강화된(재강화된) ICL과 비지도 ICL. 강화된 ICL은 인간 예제 대신 모델이 생성한 사고 사슬(chain-of-thought) 근거를 사용합니다. 비지도 ICL은 프롬프트에서 근거를 완전히 제거하고 도메인별 질문만으로 모델을 자극합니다. 우리는 강화된 및 비지도 ICL 모두 다수 샷 영역에서 특히 복잡한 추론 과제에서 매우 효과적일 수 있음을 발견했습니다. 마지막으로, 소수 샷 학습과 달리 다수 샷 학습은 사전학습 편향을 효과적으로 극복하고 수치 입력을 가진 고차원 함수를 학습할 수 있음을 보여줍니다. 우리의 분석은 또한 다음 토큰 예측 손실이 후속 ICL 성능 지표로서의 한계를 드러냅니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Rishabh Agarwal

Avi Singh

Lei M. Zhang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

다수 샷 인컨텍스트 학습

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider