May 29, 2024Open Access

Modelos Dinâmicos Baseados em Difusão para Implementação de Longo Horizonte em Aprendizado por Reforço Offline

Key Points

Key points are not available for this paper at this time.

Abstract

Com o grande sucesso dos modelos de difusão (DMs) na geração de dados sintéticos visuais realistas, muitos pesquisadores investigaram seu potencial em tomada de decisão e controle. A maioria desses trabalhos utilizou DMs para amostrar diretamente do espaço de trajetórias, onde os DMs podem ser vistos como uma combinação de modelos dinâmicos e políticas. Neste trabalho, exploramos como desacoplar a capacidade dos DMs como modelos dinâmicos em configurações totalmente offline, permitindo que a política de aprendizado execute trajetórias. Como os DMs aprendem a distribuição dos dados a partir do conjunto de dados, sua política intrínseca é na verdade a política comportamental induzida pelo conjunto de dados, o que resulta em um descompasso entre a política comportamental e a política de aprendizado. Propomos o Dynamics Diffusion, abreviado como DyDiff, que pode injetar informações da política de aprendizado nos DMs de forma iterativa. O DyDiff garante precisão na implementação de longo horizonte enquanto mantém a consistência da política e pode ser facilmente aplicado em algoritmos sem modelo. Fornecemos análise teórica para mostrar a vantagem dos DMs na implementação de longo horizonte em relação a modelos e demonstramos a eficácia do DyDiff no contexto do aprendizado por reforço offline, onde o conjunto de dados para implementação é fornecido mas não há ambiente online para interação. Nosso código está disponível em https://github.com/FineArtz/DyDiff.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hanye Zhao

Xiaoshen Han

Zhengbang Zhu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Modelos Dinâmicos Baseados em Difusão para Implementação de Longo Horizonte em Aprendizado por Reforço Offline

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider