Key points are not available for this paper at this time.
Reinforcement Learning aus menschlichem Feedback (RLHF) bietet einen methodischen Rahmen zur Ausrichtung von KI-Systemen an menschliche Präferenzdaten. Aus verschiedenen Gründen, z. B. persönliche Voreingenommenheit, Kontextambiguität, fehlende Schulung etc., können menschliche Annotatoren fehlerhafte oder inkonsistente Präferenzlabels vergeben. Zur Bewältigung dieser Herausforderung schlagen wir einen robusten RLHF-Ansatz – R³M – vor, der das potenziell korrumpierte Präferenzlabel als spärliche Ausreißer modelliert. Dementsprechend formulieren wir das robuste Belohnungslernen als ein ₁-reguliertes Maximum-Likelihood-Schätzproblem. Rechnerisch entwickeln wir einen effizienten alternierenden Optimierungsalgorithmus, der nur einen vernachlässigbaren Rechenmehraufwand im Vergleich zum Standard-RLHF-Ansatz verursacht. Theoretisch beweisen wir, dass R³M unter geeigneten Regularitätsbedingungen die zugrundeliegende Belohnung konsistent lernen und Ausreißer identifizieren kann, vorausgesetzt, dass die Anzahl der Ausreißerlabels sublinear mit der Stichprobengröße der Präferenzen wächst. Weiterhin stellen wir fest, dass R³M vielseitig einsetzbar ist und auf verschiedene Präferenzoptimierungsmethoden, einschließlich direkter Präferenzoptimierung (DPO), erweitert werden kann. Unsere Experimente in der Robotersteuerung und der natürlichen Sprachgenerierung mit großen Sprachmodellen (LLMs) zeigen, dass R³M die Robustheit der Belohnung gegenüber mehreren Arten von Störungen der Präferenzdaten verbessert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Alexander Bukharin
Ilgee Hong
Haoming Jiang
Building similarity graph...
Analyzing shared references across papers
Loading...
Bukharin et al. (Fri,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e63e20b6db6435875cfbc5 — DOI: https://doi.org/10.48550/arxiv.2406.15568
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: