Key points are not available for this paper at this time.
Reinforcement Learning mit menschlichem Feedback (RLHF) wird umfangreich eingesetzt, um große Sprachmodelle mit den Nutzerintentionen in Einklang zu bringen. Allerdings ist proximal policy optimization (PPO) basiertes RLHF gelegentlich instabil, erfordert erhebliche Feinabstimmung der Hyperparameter und ist rechnerisch aufwendig, um die geschätzte Belohnung während der Ausrichtung zu maximieren. Kürzlich wurde direkte Präferenzoptimierung (DPO) vorgeschlagen, um diese Herausforderungen zu adressieren. DPO beruht jedoch auf kontrastiven Antworten, die von menschlichen Annotatoren und alternativen LLMs generiert werden, statt vom Policy-Modell, was die Effektivität des RLHF einschränkt. In dieser Arbeit adressieren wir beide Herausforderungen durch eine systematische Kombination von Rejection Sampling (RS) und DPO. Unsere vorgeschlagene Methode RS-DPO beginnt mit der Entwicklung eines überwacht feinjustierten Policy-Modells (SFT). Eine unterschiedliche Menge von k Antworten pro Prompt wird direkt vom SFT-Modell gesampelt. RS-DPO identifiziert Paare kontrastiver Stichproben basierend auf ihrer Belohnungsverteilung. Schließlich wenden wir DPO mit den kontrastiven Stichproben an, um das Modell an die menschlichen Präferenzen anzupassen. Unsere Experimente zeigen, dass unsere Methode LLMs effektiv mit begrenzten Ressourcenumgebungen feinjustiert und so eine verbesserte Ausrichtung an Benutzerintentionen erreicht. Zudem übertrifft sie bestehende Methoden, einschließlich RS, PPO und DPO.
Building similarity graph...
Analyzing shared references across papers
Loading...
Saeed Khaki
Jinjin Li
Lan Ma
Building similarity graph...
Analyzing shared references across papers
Loading...
Khaki et al. (Thu,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e7917cb6db643587702dac — DOI: https://doi.org/10.48550/arxiv.2402.10038
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: