March 24, 2024Open Access

Optimalen Vorteil aus Präferenzen lernen und fälschlich als Belohnung interpretieren

Key Points

Key points are not available for this paper at this time.

Abstract

Wir betrachten Algorithmen zum Lernen von Belohnungsfunktionen aus menschlichen Präferenzen über Paare von Trajektorie-Segmenten, wie sie im Reinforcement Learning mit menschlichem Feedback (RLHF) verwendet werden. Die meisten aktuellen Arbeiten gehen davon aus, dass menschliche Präferenzen ausschließlich auf der in diesen Segmenten angesammelten Belohnung oder deren partiellem Return basieren. Neuere Arbeiten stellen die Gültigkeit dieser Annahme infrage und schlagen ein alternatives Präferenzmodell vor, das auf Reue basiert. Wir untersuchen die Konsequenzen der Annahme, dass Präferenzen auf partiellem Return beruhen, wenn sie tatsächlich aus Reue entstehen. Wir argumentieren, dass die gelernte Funktion eine Approximation der optimalen Vorteilsfunktion ist, nicht einer Belohnungsfunktion. Wir stellen fest, dass, wenn ein spezifischer Fehler vermieden wird, diese falsche Annahme nicht besonders schädlich ist und zu einer stark geformten Belohnungsfunktion führt. Trotzdem ist diese falsche Verwendung der Approximation der optimalen Vorteilsfunktion weniger wünschenswert als der angemessene und einfachere Ansatz ihrer gierigen Maximierung. Aus der Perspektive des Reue-Präferenzmodells bieten wir auch eine klarere Interpretation des Feinabstimmens zeitgenössischer großer Sprachmodelle mit RLHF. Insgesamt liefert dieses Papier Einblicke, warum Lernen unter dem partiellem Return Präferenzmodell in der Praxis so gut funktioniert, obwohl es schlecht mit der Art übereinstimmt, wie Menschen Präferenzen angeben.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

W. Bradley Knox

Stephane Hatgis-Kessell

Sigurđur Örn Ađalgeirsson

Actions

Institutions

University of California, Berkeley

The University of Texas at Austin

University of Massachusetts Amherst

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Optimalen Vorteil aus Präferenzen lernen und fälschlich als Belohnung interpretieren

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study