Key points are not available for this paper at this time.
Em muitos cenários do mundo real, agentes devem aprender a partir de um conjunto de dados offline coletado por alguma política de comportamento prévia. Tal cenário naturalmente leva a um desvio de distribuição entre a política de comportamento e a política alvo que está sendo treinada — exigindo conservadorismo na política para evitar instabilidade e viés de superestimação. Modelos autoregressivos de mundo oferecem uma solução diferente para isso ao gerar experiência sintética sob a política atual. Contudo, na prática, as simulações do modelo precisam ser severamente truncadas para evitar erros cumulativos. Como alternativa, propomos a difusão guiada por política. Nosso método usa modelos de difusão para gerar trajetórias completas sob a distribuição do comportamento, aplicando orientação da política alvo para mover a experiência sintética mais para a política atual. Mostramos que a difusão guiada por política modela uma forma regularizada da distribuição alvo que equilibra a probabilidade das ações sob ambas as políticas, alvo e comportamento, levando a trajetórias plausíveis com alta probabilidade segundo a política alvo, enquanto mantém um erro de dinâmica menor que uma linha de base de modelo de mundo offline. Usando experiência sintética da difusão guiada por política como substituto direto para dados reais, demonstramos melhorias significativas de desempenho em uma variedade de algoritmos padrão e ambientes de aprendizado por reforço offline. Nossa abordagem fornece uma alternativa eficaz aos modelos autoregressivos offline de mundo, abrindo caminho para a geração controlável de dados sintéticos para treinamento.
Building similarity graph...
Analyzing shared references across papers
Loading...
Jackson et al. (Terça-feira) estudaram essa questão.
www.synapsesocial.com/papers/68e6febab6db643587678f4e — DOI: https://doi.org/10.48550/arxiv.2404.06356
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Matthew Thomas Jackson
Michael Matthews
Cong Lu
Building similarity graph...
Analyzing shared references across papers
Loading...