Key points are not available for this paper at this time.
이 논문은 대형 언어 모델(LLM)을 개인의 선호도에 맞춰 조정하는 새로운 접근법을 제시합니다. 이를 개인화된 인간 피드백 기반 강화학습(RLPHF)이라고도 합니다. 유용성, 간결성, 유머 등 여러 차원의 명시된 선호도에 따라 재학습 없이 해당 사양에 가장 적합한 LLM을 만드는 것이 목표입니다. 특정 선호 차원에 맞게 훈련된 전문가 LLM들로부터 시작하여, 각 토큰 단위로 이들의 출력을 병합하는 블랙박스 방식을 제안합니다. 우리는 선호 설명과 현재 상황을 동적으로 차기 토큰 예측 가중치로 변환하는 경량 선호 제어 모델(PCM)을 훈련합니다. 전문가 모델들의 출력을 토큰 단위로 결합함으로써, 주어진 선호도를 최적화하는 텍스트를 동적으로 생성합니다. 실험 결과, 본 방법은 기존 선호 병합 기법과 동등하거나 우수한 성능을 보이며, 개인 맞춤형으로 LLM을 세부 튜닝하는 것에 비해 확장 가능하고 효율적인 대안을 제공합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jin Zhou
Katie Z Luo
Jingwen Gu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou 등(목,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e616ccb6db6435875a9a7d — DOI: https://doi.org/10.48550/arxiv.2407.04181
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: