April 19, 2024Open Access

Abbildung der Sozialwahltheorie auf RLHF

Key Points

Key points are not available for this paper at this time.

Abstract

Neuere Arbeiten zu den Einschränkungen der Verwendung von Reinforcement Learning aus menschlichem Feedback (RLHF), um menschliche Präferenzen in das Modellverhalten einzubeziehen, beziehen sich oft auf die Sozialwahltheorie als Referenzpunkt. Die Analyse der Sozialwahltheorie von Entscheidungsmechanismen wie Wahlverfahren bietet eine technische Infrastruktur, die dabei helfen kann, menschliche Präferenzen bei Uneinigkeit zu aggregieren. Wir analysieren die Problemsituationen der Sozialwahl und von RLHF, identifizieren wesentliche Unterschiede zwischen ihnen und erörtern, wie diese Unterschiede die RLHF-Interpretation bekannter technischer Ergebnisse der Sozialwahl beeinflussen können.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jessica Dai

Eve Fleisig

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Abbildung der Sozialwahltheorie auf RLHF

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study