Key points are not available for this paper at this time.
मानव प्रतिक्रिया के साथ सुदृढीकरण शिक्षण (RLHF) मानव प्राथमिकताओं के साथ मॉडलों को संरेखित करने के लिए एक उभरता हुआ प्रारूप है। सामान्यतः, RLHF कई व्यक्तियों से प्राथमिकताओं को समेकित करता है जिनके विचार विविध और कभी-कभी परस्पर विरोधी हो सकते हैं। हमारा कार्य बहु-पार्टी RLHF के सैद्धांतिक अध्ययन की शुरुआत करता है जो विशेष रूप से कई व्यक्तियों की विविध प्राथमिकताओं का मॉडलिंग करता है। हम दिखाते हैं कि पारंपरिक RLHF दृष्टिकोण विफल हो सकते हैं क्योंकि एकल पुरस्कार फ़ंक्शन सीखना कई व्यक्तियों की प्राथमिकताओं को पकड़ने और संतुलित करने में सक्षम नहीं होता। ऐसी सीमाओं को दूर करने के लिए, हम मेता-लर्निंग को शामिल करते हैं ताकि कई प्राथमिकताएँ सीखी जा सकें और विभिन्न सामाजिक कल्याण फ़ंक्शन अपनाते हैं ताकि कई पक्षों की प्राथमिकताओं का समेकन किया जा सके। हम ऑफ़लाइन शिक्षण सेटिंग पर ध्यान केंद्रित करते हैं और नाश, उपयोगितावादी, और लेक्समिन कल्याण फ़ंक्शनों जैसे विविध सामाजिक कल्याण फ़ंक्शनों का अनुकूलन करने के लिए नमूना जटिलता सीमाएँ, साथ ही दक्षता और निष्पक्षता की गारंटी स्थापित करते हैं। हमारे परिणाम बहु-पार्टी RLHF और पारंपरिक एकल-पार्टी RLHF के नमूना जटिलताओं के बीच एक पृथक्करण दिखाते हैं। इसके अलावा, हम एक पुरस्कार-मुक्त सेटिंग पर विचार करते हैं, जहाँ प्रत्येक व्यक्ति की प्राथमिकता अब पुरस्कार मॉडल के साथ संगत नहीं होती, और ऑफ़लाइन प्राथमिकता डेटा के आधार पर वॉन न्यूमैन विजेता के पेसिमीस्टिक संस्करण प्रस्तुत करते हैं। कुल मिलाकर, हमारा कार्य बहु-पार्टी RLHF के लाभ को दर्शाता है लेकिन इसकी अधिक मांग वाली सांख्यिकीय जटिलता को भी रेखांकित करता है।
Building similarity graph...
Analyzing shared references across papers
Loading...
Huiying Zhong
Zhun Deng
Weijie Su
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhong et al. (Thu,) ने इस प्रश्न का अध्ययन किया।
www.synapsesocial.com/papers/68e7555db6db6435876cd2ba — DOI: https://doi.org/10.48550/arxiv.2403.05006
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: