March 14, 2024Open Access

미세조정된 대형 언어 모델의 일반화 능력 밝히기

Key Points

Key points are not available for this paper at this time.

Abstract

대형 언어 모델(LLM)은 탁월한 다중 작업 능력을 보여주었지만, 하위 도메인별 데이터셋에 대한 미세조정은 종종 미세조정을 하지 않은 모델보다 테스트 세트에서 우수한 성능을 내기 위해 필요하다. 그러나 미세조정이 LLM의 일반화 능력에 미치는 종합적인 영향은 완전히 이해되지 않았다. 본 논문에서는 원본의 변형되지 않은 LLM과 미세조정된 변형의 차이에 대해 탐구한다. 주요 탐구는 미세조정이 LLM 고유의 일반화 능력에 영향을 미치는지 여부에 집중한다. 이를 위해 다섯 가지 서로 다른 언어 작업과 다양한 데이터셋에서 광범위한 실험을 수행한다. 주요 발견은 생성 및 분류 작업에서 미세조정된 모델들이 다른 도메인과 작업에 일반화하는 방식이 다르다는 점이다. 흥미롭게도, 생성 작업에서 미세조정 시 컨텍스트 내 학습 전략을 통합하면 모델의 일반화 능력이 향상될 수 있음을 관찰하였다. 이러한 체계적인 조사를 통해 LLM 미세조정 관행의 변화하는 환경에 대한 귀중한 통찰을 제공하는 것을 목표로 한다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Haoran Yang

Yumeng Zhang

Jiaqi Xu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

미세조정된 대형 언어 모델의 일반화 능력 밝히기

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider