정책 상에서 보상 학습을 통한 언어 모델 미세 조정 | Synapse