Key points are not available for this paper at this time.
인간 피드백 강화 학습(RLHF)은 대형 언어 모델(LLM)을 인간의 선호에 맞추는 효과적인 접근법으로 떠올랐습니다. RLHF는 일반적으로 순차적으로 수행되는 세 단계, 즉 인간 선호 수집, 보상 학습, 정책 최적화를 포함합니다. 그러나 널리 사용됨에도 불구하고 (고정된) 보상 모델은 정책 최적화가 LLM의 데이터 분포를 지속해서 변경하기 때문에 분포 벗어난 데이터에 대해 부정확할 수 있습니다. 최신 LLM에서 새로운 선호 데이터를 반복적으로 수집하는 것이 이 문제를 완화할 수 있지만, 이는 결과 시스템을 더 복잡하고 최적화하기 어렵게 만듭니다. 본 논문에서는 정책 샘플을 이용해 보상 모델을 보정하여 분포를 유지하는 비지도 학습 기반 프레임워크인 정책상 보상 학습(RLP)을 제안합니다. 구체적으로, 정책 샘플의 강건한 표현 학습을 위한 비지도 다중관점 학습 기법을 도입하고, 정책 출력으로 고품질 선호 데이터를 시뮬레이션하는 합성 선호 생성 접근을 개발했습니다. 세 가지 벤치마크 데이터셋에 대한 광범위한 실험에서 RLP는 일관되게 최신 기법을 능가함을 보였습니다. 코드는 https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp 에서 확인할 수 있습니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Lang
Fei Huang
Yongbin Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Lang 등(목,)은 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e720d3b6db64358769a584 — DOI: https://doi.org/10.48550/arxiv.2403.19279