March 8, 2024Open Access

Superando a Superotimização de Recompensa por meio da Otimização de Política Adversarial com Estimativa de Incerteza Leve

Key Points

Key points are not available for this paper at this time.

Abstract

Introduzimos a Otimização de Política Adversarial (AdvPO), uma solução inovadora para o problema generalizado da superotimização de recompensa no Aprendizado por Reforço a partir de Feedback Humano (RLHF) para Modelos de Linguagem Extensa (LLMs). A superotimização ocorre quando um modelo de recompensa serve como um proxy imperfeito para a preferência humana, e a otimização da política conduzida por RL explora erroneamente as imprecisões da recompensa. Neste artigo, começamos apresentando uma maneira leve de quantificar as incertezas nas recompensas, baseando-se exclusivamente nas embeddings da última camada do modelo de recompensa, sem a necessidade de conjuntos de modelos de recompensa computacionalmente caros. O AdvPO então aborda um problema de otimização robusta distributiva centrado no intervalo de confiança das previsões do modelo de recompensa para a melhoria da política. Por meio de experimentos abrangentes nos conjuntos de dados Anthropic HH e TL;DR de sumarização, ilustramos a eficácia do AdvPO em mitigar o problema de superotimização, resultando consequentemente em desempenho aprimorado avaliado por meio de avaliação assistida por humanos.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xiaoying Zhang

Jean-François Ton

Wei Shen

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Superando a Superotimização de Recompensa por meio da Otimização de Política Adversarial com Estimativa de Incerteza Leve

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider