Key points are not available for this paper at this time.
대규모 언어 모델(LLM)의 발전과 함께 자연어 처리 분야에서 LLM 기반 데이터 증강 등 여러 향상이 이루어졌습니다. 그럼에도 불구하고 이전 연구들은 두 가지 주요 문제를 내포하고 있습니다: 첫째, LLM이 생성한 자연어(LLMNL)가 인간 자연어(HNL)와 진정으로 일치하는지 여부에 대한 고려 부족, 이는 매우 중요한 기본 질문입니다; 둘째, 증강된 데이터가 LLM에 의해 무작위로 생성된다는 점을 간과하여 모든 데이터가 동등한 학습 가치를 지니지 않을 수 있으며, 이는 분류기의 성능 저해로 이어질 수 있다는 점입니다. 이러한 문제를 해결하기 위해 우리는 내재적으로 LLMNL과 HNL을 계산하는 스케일링 법칙을 도입했습니다. 광범위한 실험을 통해 LLMNL이 Mandelbrot 법칙에서 약 0.2 Mandelbrot 지수 정도의 미세한 편차를 보이며, HNL에서의 복잡도 우위와 언어 스타일에 대한 해석적 논의를 강조하였습니다. 이는 LLM 확장에 견고한 토대를 마련합니다. 더 나아가, 우리는 few-shot 텍스트 분류를 위한 새로운 데이터 증강 기법인 ZGPTDA를 제안하였으며, 이는 스케일링 법칙에 대한 적합성에 기반한 퍼지 컴퓨팅 메커니즘을 활용하여 GPT-4 증강 데이터를 결정합니다. 실제 환경에서 진행된 광범위한 실험을 통해 ZGPTDA가 Bert와 RoBerta의 F1 점수를 7-10% 향상시키는 효과와 경쟁력(DeBerta에서 최근 AugGPT와 GENCO 방법을 약 2% 정확도로 능가함)을 입증하였습니다. 또한 힐버그 법칙과 테일러 법칙이 텍스트 분류에 더 큰 이점을 제공할 수 있다는 흥미로운 통찰도 제시합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhenhua Wang
Guang Xu
Ming Ren
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang 등(토,)이 이 질문을 연구하였습니다.
www.synapsesocial.com/papers/68e62acbb6db6435875bd4c4 — DOI: https://doi.org/10.48550/arxiv.2407.00322
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: