Key points are not available for this paper at this time.
Introduzimos a Otimização de Política Adversarial (AdvPO), uma solução inovadora para o problema generalizado da superotimização de recompensa no Aprendizado por Reforço a partir de Feedback Humano (RLHF) para Modelos de Linguagem Extensa (LLMs). A superotimização ocorre quando um modelo de recompensa serve como um proxy imperfeito para a preferência humana, e a otimização da política conduzida por RL explora erroneamente as imprecisões da recompensa. Neste artigo, começamos apresentando uma maneira leve de quantificar as incertezas nas recompensas, baseando-se exclusivamente nas embeddings da última camada do modelo de recompensa, sem a necessidade de conjuntos de modelos de recompensa computacionalmente caros. O AdvPO então aborda um problema de otimização robusta distributiva centrado no intervalo de confiança das previsões do modelo de recompensa para a melhoria da política. Por meio de experimentos abrangentes nos conjuntos de dados Anthropic HH e TL;DR de sumarização, ilustramos a eficácia do AdvPO em mitigar o problema de superotimização, resultando consequentemente em desempenho aprimorado avaliado por meio de avaliação assistida por humanos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiaoying Zhang
Jean-François Ton
Wei Shen
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (Sex,) estudaram essa questão.
www.synapsesocial.com/papers/68e752dab6db6435876cb7fc — DOI: https://doi.org/10.48550/arxiv.2403.05171
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: