June 29, 2024Open Access

LLM 생성 자연어와 스케일링 법칙의 만남: 새로운 탐구와 데이터 증강 방법

Key Points

Key points are not available for this paper at this time.

Abstract

대규모 언어 모델(LLM)의 발전과 함께 자연어 처리 분야에서 LLM 기반 데이터 증강 등 여러 향상이 이루어졌습니다. 그럼에도 불구하고 이전 연구들은 두 가지 주요 문제를 내포하고 있습니다: 첫째, LLM이 생성한 자연어(LLMNL)가 인간 자연어(HNL)와 진정으로 일치하는지 여부에 대한 고려 부족, 이는 매우 중요한 기본 질문입니다; 둘째, 증강된 데이터가 LLM에 의해 무작위로 생성된다는 점을 간과하여 모든 데이터가 동등한 학습 가치를 지니지 않을 수 있으며, 이는 분류기의 성능 저해로 이어질 수 있다는 점입니다. 이러한 문제를 해결하기 위해 우리는 내재적으로 LLMNL과 HNL을 계산하는 스케일링 법칙을 도입했습니다. 광범위한 실험을 통해 LLMNL이 Mandelbrot 법칙에서 약 0.2 Mandelbrot 지수 정도의 미세한 편차를 보이며, HNL에서의 복잡도 우위와 언어 스타일에 대한 해석적 논의를 강조하였습니다. 이는 LLM 확장에 견고한 토대를 마련합니다. 더 나아가, 우리는 few-shot 텍스트 분류를 위한 새로운 데이터 증강 기법인 ZGPTDA를 제안하였으며, 이는 스케일링 법칙에 대한 적합성에 기반한 퍼지 컴퓨팅 메커니즘을 활용하여 GPT-4 증강 데이터를 결정합니다. 실제 환경에서 진행된 광범위한 실험을 통해 ZGPTDA가 Bert와 RoBerta의 F1 점수를 7-10% 향상시키는 효과와 경쟁력(DeBerta에서 최근 AugGPT와 GENCO 방법을 약 2% 정확도로 능가함)을 입증하였습니다. 또한 힐버그 법칙과 테일러 법칙이 텍스트 분류에 더 큰 이점을 제공할 수 있다는 흥미로운 통찰도 제시합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zhenhua Wang

Guang Xu

Ming Ren

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

LLM 생성 자연어와 스케일링 법칙의 만남: 새로운 탐구와 데이터 증강 방법

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider