July 4, 2024Open Access

HAF-RM: इनाम मॉडल प्रशिक्षण के लिए एक हाइब्रिड संरेखण फ्रेमवर्क

Key Points

Key points are not available for this paper at this time.

Abstract

इनाम मॉडल बड़े भाषा मॉडलों (LLMs) के संरेखण, मूल्यांकन, और डेटा निर्माण में बढ़ती भूमिका निभा रहा है। अधिकांश मौजूदा शोधकर्ता पारंपरिक प्रशिक्षण ढांचे का पालन करते हुए पूर्वानुमानित पुरस्कारों को सीधे अनुकूलित करके इनाम मॉडलों को डेटा में सुधार के माध्यम से बढ़ाने पर ध्यान केंद्रित करते हैं। इस पत्र में, हम टोकन-स्तरीय नीति संभावनाओं पर अतिरिक्त प्रतिबंध लागू करके इनाम मॉडल प्रशिक्षण के लिए एक हाइब्रिड संरेखण फ्रेमवर्क HaF-RM प्रस्तावित करते हैं, जो पुरस्कार स्कोर के अलावा है। यह टोकन स्तर पर आंतरिक पसंद मॉडल की समवर्ती निगरानी कर सकता है और अनुक्रम स्तर पर इनाम मॉडल की मैपिंग परत को अनुकूलित कर सकता है। पांच डेटासेट पर सैद्धांतिक औचित्य और प्रयोग परिणाम दिखाते हैं कि हमारे प्रस्तावित हाइब्रिड फ्रेमवर्क द्वारा उच्च गुणवत्ता वाले इनाम मॉडल का प्रशिक्षण वैध और प्रभावी है। इनाम मॉडलिंग प्रक्रिया को पृथक करके और हाइब्रिड पर्यवेक्षण को शामिल करके, हमारा HaF-RM फ्रेमवर्क जिम्मेदार शक्तिशाली भाषा मॉडलों के विकास में महत्वपूर्ण घटक, इनाम मॉडलों के प्रदर्शन और संरेखण को बढ़ाने के लिए एक सुसंगत और प्रभावी दृष्टिकोण प्रदान करता है। हम अपना कोड https://haf-rm.github.io पर जारी करते हैं।

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Shujun Liu

Xiaoyu Shen

Yuhang Lai

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

HAF-RM: इनाम मॉडल प्रशिक्षण के लिए एक हाइब्रिड संरेखण फ्रेमवर्क

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider