June 21, 2024Open Access

Robustes Reinforcement Learning aus korrumpiertem menschlichem Feedback

Key Points

Key points are not available for this paper at this time.

Abstract

Reinforcement Learning aus menschlichem Feedback (RLHF) bietet einen methodischen Rahmen zur Ausrichtung von KI-Systemen an menschliche Präferenzdaten. Aus verschiedenen Gründen, z. B. persönliche Voreingenommenheit, Kontextambiguität, fehlende Schulung etc., können menschliche Annotatoren fehlerhafte oder inkonsistente Präferenzlabels vergeben. Zur Bewältigung dieser Herausforderung schlagen wir einen robusten RLHF-Ansatz – R³M – vor, der das potenziell korrumpierte Präferenzlabel als spärliche Ausreißer modelliert. Dementsprechend formulieren wir das robuste Belohnungslernen als ein ₁-reguliertes Maximum-Likelihood-Schätzproblem. Rechnerisch entwickeln wir einen effizienten alternierenden Optimierungsalgorithmus, der nur einen vernachlässigbaren Rechenmehraufwand im Vergleich zum Standard-RLHF-Ansatz verursacht. Theoretisch beweisen wir, dass R³M unter geeigneten Regularitätsbedingungen die zugrundeliegende Belohnung konsistent lernen und Ausreißer identifizieren kann, vorausgesetzt, dass die Anzahl der Ausreißerlabels sublinear mit der Stichprobengröße der Präferenzen wächst. Weiterhin stellen wir fest, dass R³M vielseitig einsetzbar ist und auf verschiedene Präferenzoptimierungsmethoden, einschließlich direkter Präferenzoptimierung (DPO), erweitert werden kann. Unsere Experimente in der Robotersteuerung und der natürlichen Sprachgenerierung mit großen Sprachmodellen (LLMs) zeigen, dass R³M die Robustheit der Belohnung gegenüber mehreren Arten von Störungen der Präferenzdaten verbessert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Alexander Bukharin

Ilgee Hong

Haoming Jiang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Robustes Reinforcement Learning aus korrumpiertem menschlichem Feedback

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider