May 23, 2024Open Access

التحسين المباشر للتفضيل مع التغاير غير الملحوظ في التفضيلات

Key Points

Key points are not available for this paper at this time.

Abstract

لقد برز التعلم المعزز من خلال تغذية راجعة بشرية (RLHF) كخطوة محورية في مواءمة نماذج اللغة مع الأهداف والقيم البشرية. وعادةً ما يتضمن ذلك تعلم نموذج مكافأة من بيانات التفضيل البشري ثم استخدام التعلم المعزز لتحديث النموذج التوليدي بناءً على ذلك. بالمقابل، يقوم التحسين المباشر للتفضيل (DPO) بتحسين النموذج التوليدي مباشرةً باستخدام بيانات التفضيل، متجاوزًا التعلم المعزز. ومع ذلك، تفترض كل من RLHF وDPO وجود تفضيلات موحدة، متجاهلتين واقع تنوع الم annotators البشرية. تقدم هذه الورقة طريقة جديدة لمواءمة النماذج التوليدية مع تفضيلات بشرية متنوعة. نقترح تعديلًا على طريقة التوقع-التعظيم لـDPO، يولد خليطًا من النماذج بناءً على أنواع التفضيلات الكامنة للم annotators. ثم نقدم نموذج تعلم جماعي مع منطق الحد الأدنى-الأقصى للندم لإنتاج طريقة توليد فردية تقلل من أسوأ حالة ندم بين المجموعات الفرعية من annotators الذين لديهم عوامل كامنة مشابهة. تستفيد خوارزمياتنا من بساطة DPO مع استيعاب التفضيلات المتنوعة. تؤكد النتائج التجريبية فعالية نهجنا في إنتاج سياسات توليد عادلة.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Keertana Chidambaram

Karthik Seetharaman

Vasilis Syrgkanis

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

التحسين المباشر للتفضيل مع التغاير غير الملحوظ في التفضيلات

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider