March 28, 2024Open Access

Optimisation à Préférence Mixte : Apprentissage par Renforcement avec Sélection de Données et Meilleur Modèle de Référence

Key Points

Key points are not available for this paper at this time.

Abstract

Les grands modèles de langage (LLM) sont de plus en plus populaires en raison de leur capacité à traiter et générer un langage naturel. Cependant, étant entraînés sur d’immenses ensembles de données textuelles, les LLM peuvent hériter de biais nuisibles et produire des résultats non alignés avec les valeurs humaines. Cet article étudie deux approches principales pour l’alignement des LLM : l’apprentissage par renforcement avec retour humain (RLHF) et les méthodes basées sur l’apprentissage contrastif comme l’Optimisation de Préférence Directe (DPO). En analysant la stabilité et la robustesse de RLHF et DPO, nous proposons MPO (Optimisation à Préférence Mixte), une méthode innovante qui atténue les faiblesses des deux approches. Plus précisément, nous suggérons une procédure d’entraînement en deux étapes : d’abord entraîner DPO sur un ensemble de données facile, puis exécuter RLHF sur un ensemble difficile en utilisant le modèle DPO comme modèle de référence. Ici, les ensembles facile et difficile sont construits grâce à un modèle de récompense bien entraîné qui divise les paires de réponses selon un grand écart de récompense (facile) ou un faible écart (difficile). La première étape permet d’obtenir rapidement une politique relativement optimale (modèle LLM), tandis que la seconde affine le LLM via RLHF en ligne, atténuant ainsi le problème de décalage de distribution associé à DPO. Des expériences sont menées sur deux ensembles de données publiques d’alignement, à savoir HH-RLHF et TLDR, démontrant l’efficacité de MPO, tant selon l’évaluation GPT4 qu’humaine.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Qi Gou

Cam-Tu Nguyen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Optimisation à Préférence Mixte : Apprentissage par Renforcement avec Sélection de Données et Meilleur Modèle de Référence

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider