Key points are not available for this paper at this time.
لقد برز التعلم المعزز من خلال تغذية راجعة بشرية (RLHF) كخطوة محورية في مواءمة نماذج اللغة مع الأهداف والقيم البشرية. وعادةً ما يتضمن ذلك تعلم نموذج مكافأة من بيانات التفضيل البشري ثم استخدام التعلم المعزز لتحديث النموذج التوليدي بناءً على ذلك. بالمقابل، يقوم التحسين المباشر للتفضيل (DPO) بتحسين النموذج التوليدي مباشرةً باستخدام بيانات التفضيل، متجاوزًا التعلم المعزز. ومع ذلك، تفترض كل من RLHF وDPO وجود تفضيلات موحدة، متجاهلتين واقع تنوع الم annotators البشرية. تقدم هذه الورقة طريقة جديدة لمواءمة النماذج التوليدية مع تفضيلات بشرية متنوعة. نقترح تعديلًا على طريقة التوقع-التعظيم لـDPO، يولد خليطًا من النماذج بناءً على أنواع التفضيلات الكامنة للم annotators. ثم نقدم نموذج تعلم جماعي مع منطق الحد الأدنى-الأقصى للندم لإنتاج طريقة توليد فردية تقلل من أسوأ حالة ندم بين المجموعات الفرعية من annotators الذين لديهم عوامل كامنة مشابهة. تستفيد خوارزمياتنا من بساطة DPO مع استيعاب التفضيلات المتنوعة. تؤكد النتائج التجريبية فعالية نهجنا في إنتاج سياسات توليد عادلة.
Building similarity graph...
Analyzing shared references across papers
Loading...
Keertana Chidambaram
Karthik Seetharaman
Vasilis Syrgkanis
Building similarity graph...
Analyzing shared references across papers
Loading...
درس تشيدامبارام وآخرون (خميس) هذا السؤال.
www.synapsesocial.com/papers/68e68d03b6db643587614eaf — DOI: https://doi.org/10.48550/arxiv.2405.15065
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: