Key points are not available for this paper at this time.
Cet article présente une nouvelle approche visant à aligner les grands modèles de langage (LLM) avec les préférences humaines individuelles, parfois appelée apprentissage par renforcement à partir de retours humains personnalisés (RLPHF). Étant donné des préférences exprimées selon plusieurs dimensions, telles que l'utilité, la concision ou l'humour, l'objectif est de créer un LLM sans réentraînement qui adhère au mieux à cette spécification. Partant de LLM spécialisés d'experts, chacun entraîné pour une dimension de préférence particulière, nous proposons une méthode en boîte noire qui fusionne leurs sorties au niveau du token. Nous entraînons un modèle de contrôle de préférence (PCM) léger qui traduit dynamiquement la description de la préférence et le contexte actuel en poids de prédiction du token suivant. En combinant les sorties des modèles experts au niveau du token, notre approche génère dynamiquement un texte optimisant la préférence donnée. Les tests empiriques montrent que notre méthode égalise ou dépasse les techniques existantes de fusion de préférences, offrant une alternative évolutive et efficace au fine-tuning des LLM pour une personnalisation individuelle.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jin Zhou
Katie Z Luo
Jingwen Gu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhou et al. (jeu,) ont étudié cette question.
www.synapsesocial.com/papers/68e616ccb6db6435875a9a7d — DOI: https://doi.org/10.48550/arxiv.2407.04181
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: