June 11, 2024Open Access

Aprendizado por Reforço Multiobjetivo a partir de Feedback de IA

Key Points

Key points are not available for this paper at this time.

Abstract

Este artigo apresenta o Aprendizado por Reforço Multiobjetivo a partir de Feedback de IA (MORLAIF), uma abordagem inovadora para melhorar o alinhamento e desempenho de modelos de linguagem treinados usando aprendizado por reforço a partir de feedback de IA (RLAIF). Em contraste com abordagens padrão que treinam um único modelo de preferência para representar todas as preferências humanas, o MORLAIF decompõe essa tarefa em múltiplos princípios mais simples, como toxicidade, factualidade e bajulação. Modelos de preferência separados são treinados para cada princípio usando feedback do GPT-3.5-Turbo. As pontuações desses modelos de preferência são então combinadas utilizando diferentes funções de scalarização para fornecer um sinal de recompensa para o treinamento com Proximal Policy Optimization (PPO) do modelo de linguagem alvo. Nossos experimentos indicam que o MORLAIF supera as linhas de base padrão do RLAIF e que o MORLAIF pode ser usado para alinhar modelos de linguagem maiores utilizando modelos menores. Surpreendentemente, a escolha da função de scalarização não parece impactar significativamente os resultados.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Marcus Williams

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Aprendizado por Reforço Multiobjetivo a partir de Feedback de IA

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider