July 4, 2024Open Access

다양한 개인화 기능을 갖춘 LLM 조율

Key Points

Key points are not available for this paper at this time.

Abstract

이 논문은 대형 언어 모델(LLM)을 개인의 선호도에 맞춰 조정하는 새로운 접근법을 제시합니다. 이를 개인화된 인간 피드백 기반 강화학습(RLPHF)이라고도 합니다. 유용성, 간결성, 유머 등 여러 차원의 명시된 선호도에 따라 재학습 없이 해당 사양에 가장 적합한 LLM을 만드는 것이 목표입니다. 특정 선호 차원에 맞게 훈련된 전문가 LLM들로부터 시작하여, 각 토큰 단위로 이들의 출력을 병합하는 블랙박스 방식을 제안합니다. 우리는 선호 설명과 현재 상황을 동적으로 차기 토큰 예측 가중치로 변환하는 경량 선호 제어 모델(PCM)을 훈련합니다. 전문가 모델들의 출력을 토큰 단위로 결합함으로써, 주어진 선호도를 최적화하는 텍스트를 동적으로 생성합니다. 실험 결과, 본 방법은 기존 선호 병합 기법과 동등하거나 우수한 성능을 보이며, 개인 맞춤형으로 LLM을 세부 튜닝하는 것에 비해 확장 가능하고 효율적인 대안을 제공합니다.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jin Zhou

Katie Z Luo

Jingwen Gu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

다양한 개인화 기능을 갖춘 LLM 조율

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider