Key points are not available for this paper at this time.
Verstärkendes Lernen mit menschlichem Feedback (RLHF) hat sich als effektiver Ansatz zur Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen etabliert. RLHF umfasst drei Schritte, nämlich das Sammeln menschlicher Präferenzen, das Erlernen einer Belohnungsfunktion und die Politikoptimierung, die üblicherweise seriell durchgeführt werden. Trotz seiner Popularität können (fixe) Belohnungsmodelle unter ungenauer Verteilung außerhalb des Trainings leiden, da die Politikoptimierung die Datenverteilung der LLMs kontinuierlich verschiebt. Die wiederholte Sammlung neuer Präferenzdaten von den neuesten LLMs kann dieses Problem mildern, was das resultierende System jedoch komplexer und schwieriger zu optimieren macht. In diesem Papier schlagen wir das Belohnungslernen auf der Basis der Policy (RLP) vor, ein unüberwachtes Framework, das ein Belohnungsmodell mithilfe von Policy-Beispielen verfeinert, um es innerhalb der Verteilung zu halten. Konkret wird eine unüberwachte Mehransichts-Lernmethode eingeführt, um robuste Repräsentationen von Policy-Beispielen zu lernen. Gleichzeitig wird ein Ansatz zur synthetischen Präferenzgenerierung entwickelt, um qualitativ hochwertige Präferenzdaten mit Policy-Ausgaben zu simulieren. Umfangreiche Experimente auf drei Benchmark-Datensätzen zeigen, dass RLP durchgehend den Stand der Technik übertrifft. Unser Code ist verfügbar unter https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hao Lang
Fei Huang
Yongbin Li
Building similarity graph...
Analyzing shared references across papers
Loading...
Lang et al. (Do,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e720d3b6db64358769a584 — DOI: https://doi.org/10.48550/arxiv.2403.19279