Key points are not available for this paper at this time.
Neuere Arbeiten zu den Einschränkungen der Verwendung von Reinforcement Learning aus menschlichem Feedback (RLHF), um menschliche Präferenzen in das Modellverhalten einzubeziehen, beziehen sich oft auf die Sozialwahltheorie als Referenzpunkt. Die Analyse der Sozialwahltheorie von Entscheidungsmechanismen wie Wahlverfahren bietet eine technische Infrastruktur, die dabei helfen kann, menschliche Präferenzen bei Uneinigkeit zu aggregieren. Wir analysieren die Problemsituationen der Sozialwahl und von RLHF, identifizieren wesentliche Unterschiede zwischen ihnen und erörtern, wie diese Unterschiede die RLHF-Interpretation bekannter technischer Ergebnisse der Sozialwahl beeinflussen können.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jessica Dai
Eve Fleisig
Building similarity graph...
Analyzing shared references across papers
Loading...
Dai et al. (Fr,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e6e75fb6db643587662e32 — DOI: https://doi.org/10.48550/arxiv.2404.13038