Key points are not available for this paper at this time.
Wir betrachten Algorithmen zum Lernen von Belohnungsfunktionen aus menschlichen Präferenzen über Paare von Trajektorie-Segmenten, wie sie im Reinforcement Learning mit menschlichem Feedback (RLHF) verwendet werden. Die meisten aktuellen Arbeiten gehen davon aus, dass menschliche Präferenzen ausschließlich auf der in diesen Segmenten angesammelten Belohnung oder deren partiellem Return basieren. Neuere Arbeiten stellen die Gültigkeit dieser Annahme infrage und schlagen ein alternatives Präferenzmodell vor, das auf Reue basiert. Wir untersuchen die Konsequenzen der Annahme, dass Präferenzen auf partiellem Return beruhen, wenn sie tatsächlich aus Reue entstehen. Wir argumentieren, dass die gelernte Funktion eine Approximation der optimalen Vorteilsfunktion ist, nicht einer Belohnungsfunktion. Wir stellen fest, dass, wenn ein spezifischer Fehler vermieden wird, diese falsche Annahme nicht besonders schädlich ist und zu einer stark geformten Belohnungsfunktion führt. Trotzdem ist diese falsche Verwendung der Approximation der optimalen Vorteilsfunktion weniger wünschenswert als der angemessene und einfachere Ansatz ihrer gierigen Maximierung. Aus der Perspektive des Reue-Präferenzmodells bieten wir auch eine klarere Interpretation des Feinabstimmens zeitgenössischer großer Sprachmodelle mit RLHF. Insgesamt liefert dieses Papier Einblicke, warum Lernen unter dem partiellem Return Präferenzmodell in der Praxis so gut funktioniert, obwohl es schlecht mit der Art übereinstimmt, wie Menschen Präferenzen angeben.
Building similarity graph...
Analyzing shared references across papers
Loading...
W. Bradley Knox
Stephane Hatgis-Kessell
Sigurđur Örn Ađalgeirsson
University of California, Berkeley
The University of Texas at Austin
University of Massachusetts Amherst
Building similarity graph...
Analyzing shared references across papers
Loading...
Knox et al. (Sun,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68e7296db6db6435876a38bb — DOI: https://doi.org/10.1609/aaai.v38i9.28870