March 28, 2024Open Access

Feinabstimmung von Sprachmodellen mit Belohnungslernen auf Grundlage der Policy

Key Points

Key points are not available for this paper at this time.

Abstract

Verstärkendes Lernen mit menschlichem Feedback (RLHF) hat sich als effektiver Ansatz zur Ausrichtung großer Sprachmodelle (LLMs) an menschlichen Präferenzen etabliert. RLHF umfasst drei Schritte, nämlich das Sammeln menschlicher Präferenzen, das Erlernen einer Belohnungsfunktion und die Politikoptimierung, die üblicherweise seriell durchgeführt werden. Trotz seiner Popularität können (fixe) Belohnungsmodelle unter ungenauer Verteilung außerhalb des Trainings leiden, da die Politikoptimierung die Datenverteilung der LLMs kontinuierlich verschiebt. Die wiederholte Sammlung neuer Präferenzdaten von den neuesten LLMs kann dieses Problem mildern, was das resultierende System jedoch komplexer und schwieriger zu optimieren macht. In diesem Papier schlagen wir das Belohnungslernen auf der Basis der Policy (RLP) vor, ein unüberwachtes Framework, das ein Belohnungsmodell mithilfe von Policy-Beispielen verfeinert, um es innerhalb der Verteilung zu halten. Konkret wird eine unüberwachte Mehransichts-Lernmethode eingeführt, um robuste Repräsentationen von Policy-Beispielen zu lernen. Gleichzeitig wird ein Ansatz zur synthetischen Präferenzgenerierung entwickelt, um qualitativ hochwertige Präferenzdaten mit Policy-Ausgaben zu simulieren. Umfangreiche Experimente auf drei Benchmark-Datensätzen zeigen, dass RLP durchgehend den Stand der Technik übertrifft. Unser Code ist verfügbar unter https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hao Lang

Fei Huang

Yongbin Li

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Feinabstimmung von Sprachmodellen mit Belohnungslernen auf Grundlage der Policy

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study