July 4, 2024Open Access

Orchestration des LLM avec différentes personnalisations

Key Points

Key points are not available for this paper at this time.

Abstract

Cet article présente une nouvelle approche visant à aligner les grands modèles de langage (LLM) avec les préférences humaines individuelles, parfois appelée apprentissage par renforcement à partir de retours humains personnalisés (RLPHF). Étant donné des préférences exprimées selon plusieurs dimensions, telles que l'utilité, la concision ou l'humour, l'objectif est de créer un LLM sans réentraînement qui adhère au mieux à cette spécification. Partant de LLM spécialisés d'experts, chacun entraîné pour une dimension de préférence particulière, nous proposons une méthode en boîte noire qui fusionne leurs sorties au niveau du token. Nous entraînons un modèle de contrôle de préférence (PCM) léger qui traduit dynamiquement la description de la préférence et le contexte actuel en poids de prédiction du token suivant. En combinant les sorties des modèles experts au niveau du token, notre approche génère dynamiquement un texte optimisant la préférence donnée. Les tests empiriques montrent que notre méthode égalise ou dépasse les techniques existantes de fusion de préférences, offrant une alternative évolutive et efficace au fine-tuning des LLM pour une personnalisation individuelle.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Jin Zhou

Katie Z Luo

Jingwen Gu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Orchestration des LLM avec différentes personnalisations

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider