Key points are not available for this paper at this time.
Les grands modèles de langage (LLM) sont de plus en plus populaires en raison de leur capacité à traiter et générer un langage naturel. Cependant, étant entraînés sur d’immenses ensembles de données textuelles, les LLM peuvent hériter de biais nuisibles et produire des résultats non alignés avec les valeurs humaines. Cet article étudie deux approches principales pour l’alignement des LLM : l’apprentissage par renforcement avec retour humain (RLHF) et les méthodes basées sur l’apprentissage contrastif comme l’Optimisation de Préférence Directe (DPO). En analysant la stabilité et la robustesse de RLHF et DPO, nous proposons MPO (Optimisation à Préférence Mixte), une méthode innovante qui atténue les faiblesses des deux approches. Plus précisément, nous suggérons une procédure d’entraînement en deux étapes : d’abord entraîner DPO sur un ensemble de données facile, puis exécuter RLHF sur un ensemble difficile en utilisant le modèle DPO comme modèle de référence. Ici, les ensembles facile et difficile sont construits grâce à un modèle de récompense bien entraîné qui divise les paires de réponses selon un grand écart de récompense (facile) ou un faible écart (difficile). La première étape permet d’obtenir rapidement une politique relativement optimale (modèle LLM), tandis que la seconde affine le LLM via RLHF en ligne, atténuant ainsi le problème de décalage de distribution associé à DPO. Des expériences sont menées sur deux ensembles de données publiques d’alignement, à savoir HH-RLHF et TLDR, démontrant l’efficacité de MPO, tant selon l’évaluation GPT4 qu’humaine.
Building similarity graph...
Analyzing shared references across papers
Loading...
Qi Gou
Cam-Tu Nguyen
Building similarity graph...
Analyzing shared references across papers
Loading...
Gou et al. (Jeu,) ont étudié cette question.
www.synapsesocial.com/papers/68e720d3b6db64358769a61d — DOI: https://doi.org/10.48550/arxiv.2403.19443
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: