Key points are not available for this paper at this time.
인간 피드백을 활용한 강화학습(RLHF)은 대형 언어 모델(LLM)을 인간의 선호와 정렬하는 표준 접근법이 되어 다양한 작업에서 놀라운 능력을 보여주고 있습니다. 기존 방법들은 단일 의사결정(턴) 수준에서 선호를 모방하는 방식으로 작동하여, 장기적인 목표 달성을 위해 계획이나 다중 턴 상호작용이 필요한 환경에서 한계가 있습니다. 본 논문에서는 두 개의 전체 다중 턴 대화 간 선호 피드백으로부터 강화학습(RL)을 수행하는 새로운 방법을 개발하여 이 문제를 해결합니다. 표 형 환경에서는 일반적인 다중 턴 선호 기반 RL 문제에 대해 새로운 미러-디센트 기반 정책 최적화 알고리즘을 제시하고 그 수렴을 내시 균형으로 증명합니다. 성능 평가를 위해 교사 에이전트가 학생에게 무작위 주제를 가르치는 새 환경인 Education Dialogue를 만들었으며, 본 알고리즘의 딥 RL 변형이 RLHF 기준점들을 능가함을 보여줍니다. 마지막으로 명시적 보상이 있는 환경에서 본 알고리즘이 선호 신호만을 활용하면서도 보상 기반 RL 기준선과 같은 성능을 회복함을 보입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Lior Shani
Aviv Rosenberg
Asaf Cassel
Building similarity graph...
Analyzing shared references across papers
Loading...
Shani 등(목,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e68cfdb6db643587614d4f — DOI: https://doi.org/10.48550/arxiv.2405.14655
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: