April 11, 2023Open Access

RRHF: बिना परेशानी के ह्यूमन फीडबैक के साथ भाषा मॉडलों को संरेखित करने के लिए रैंक प्रतिक्रियाएं

Key Points

Key points are not available for this paper at this time.

Abstract

मानव प्रतिक्रिया से सुदृढीकरण अधिगम (RLHF) बड़े भाषा मॉडलों को मानव प्राथमिकताओं के साथ संरेखित करने में सहायक है, जिससे मानव और मॉडलों के बीच अंत:क्रियाओं की गुणवत्ता में महत्वपूर्ण सुधार होता है। InstructGPT कई चरणों के माध्यम से RLHF को लागू करता है, जिनमें सुपरवाइज्ड फाइन-ट्यूनिंग (SFT), इनाम मॉडल प्रशिक्षण, और प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन (PPO) शामिल हैं। हालांकि, PPO हाइपरपैरामीटर के प्रति संवेदनशील है और इसके मानक कार्यान्वयन में कई मॉडलों की आवश्यकता होती है, जिससे इसे प्रशिक्षित करना और बड़े पैरामीटर संख्याओं तक स्केल करना कठिन हो जाता है। इसके विपरीत, हम एक नवीन अधिगम प्रतिमान RRHF प्रस्तावित करते हैं, जो विभिन्न स्रोतों से नमूनाकृत प्रतिक्रियाओं को सशर्त संभावनाओं के लॉगरिदम के माध्यम से स्कोर करता है और रैंकिंग लॉस के माध्यम से इन संभावनाओं को मानव प्राथमिकताओं के साथ संरेखित करना सीखता है। RRHF विभिन्न स्रोतों से नमूनाकृत प्रतिक्रियाओं का लाभ उठा सकता है, जिनमें स्वयं मॉडल की प्रतिक्रियाएं, अन्य बड़े भाषा मॉडल प्रतिक्रियाएं, और मानव विशेषज्ञ प्रतिक्रियाएं शामिल हैं, ताकि उन्हें रैंक करना सीखा जा सके। RRHF ट्यूनिंग के दौरान केवल 1 से 2 मॉडलों की आवश्यकता होती है और जटिल हाइपरपैरामीटर ट्यूनिंग के बिना भाषाई मॉडलों को मानव प्राथमिकताओं के साथ प्रभावी और मजबूती से संरेखित कर सकता है। इसके अतिरिक्त, RRHF को SFT और इनाम मॉडल प्रशिक्षण का एक विस्तार माना जा सकता है जबकि यह कोडिंग, मॉडल गणना और हाइपरपैरामीटर के संदर्भ में PPO की तुलना में सरल है। हम Helpful and Harmless डेटासेट पर RRHF का मूल्यांकन करते हैं, जो इनाम मॉडल स्कोर और मानव लेबलिंग द्वारा PPO के तुलनीय संरेखण प्रदर्शन को प्रदर्शित करता है। व्यापक प्रयोग दिखाते हैं कि RRHF का प्रदर्शन नमूना गुणवत्ता से गहराई से संबंधित है, जो यह सुझाव देता है कि RRHF एक best-of-n अधिगमकर्ता है। कोड https://github.com/GanjinZero/RRHF पर उपलब्ध हैं।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Zheng Yuan

Hongyi Yuan

Chuanqi Tan

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

RRHF: बिना परेशानी के ह्यूमन फीडबैक के साथ भाषा मॉडलों को संरेखित करने के लिए रैंक प्रतिक्रियाएं

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study