February 15, 2024Open Access

RS-DPO: Eine hybride Methode aus Rejection Sampling und direkter Präferenzoptimierung zur Ausrichtung großer Sprachmodelle

Key Points

Key points are not available for this paper at this time.

Abstract

Reinforcement Learning mit menschlichem Feedback (RLHF) wird umfangreich eingesetzt, um große Sprachmodelle mit den Nutzerintentionen in Einklang zu bringen. Allerdings ist proximal policy optimization (PPO) basiertes RLHF gelegentlich instabil, erfordert erhebliche Feinabstimmung der Hyperparameter und ist rechnerisch aufwendig, um die geschätzte Belohnung während der Ausrichtung zu maximieren. Kürzlich wurde direkte Präferenzoptimierung (DPO) vorgeschlagen, um diese Herausforderungen zu adressieren. DPO beruht jedoch auf kontrastiven Antworten, die von menschlichen Annotatoren und alternativen LLMs generiert werden, statt vom Policy-Modell, was die Effektivität des RLHF einschränkt. In dieser Arbeit adressieren wir beide Herausforderungen durch eine systematische Kombination von Rejection Sampling (RS) und DPO. Unsere vorgeschlagene Methode RS-DPO beginnt mit der Entwicklung eines überwacht feinjustierten Policy-Modells (SFT). Eine unterschiedliche Menge von k Antworten pro Prompt wird direkt vom SFT-Modell gesampelt. RS-DPO identifiziert Paare kontrastiver Stichproben basierend auf ihrer Belohnungsverteilung. Schließlich wenden wir DPO mit den kontrastiven Stichproben an, um das Modell an die menschlichen Präferenzen anzupassen. Unsere Experimente zeigen, dass unsere Methode LLMs effektiv mit begrenzten Ressourcenumgebungen feinjustiert und so eine verbesserte Ausrichtung an Benutzerintentionen erreicht. Zudem übertrifft sie bestehende Methoden, einschließlich RS, PPO und DPO.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Saeed Khaki

Jinjin Li

Lan Ma

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

RS-DPO: Eine hybride Methode aus Rejection Sampling und direkter Präferenzoptimierung zur Ausrichtung großer Sprachmodelle

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider