Key points are not available for this paper at this time.
Com o grande sucesso dos modelos de difusão (DMs) na geração de dados sintéticos visuais realistas, muitos pesquisadores investigaram seu potencial em tomada de decisão e controle. A maioria desses trabalhos utilizou DMs para amostrar diretamente do espaço de trajetórias, onde os DMs podem ser vistos como uma combinação de modelos dinâmicos e políticas. Neste trabalho, exploramos como desacoplar a capacidade dos DMs como modelos dinâmicos em configurações totalmente offline, permitindo que a política de aprendizado execute trajetórias. Como os DMs aprendem a distribuição dos dados a partir do conjunto de dados, sua política intrínseca é na verdade a política comportamental induzida pelo conjunto de dados, o que resulta em um descompasso entre a política comportamental e a política de aprendizado. Propomos o Dynamics Diffusion, abreviado como DyDiff, que pode injetar informações da política de aprendizado nos DMs de forma iterativa. O DyDiff garante precisão na implementação de longo horizonte enquanto mantém a consistência da política e pode ser facilmente aplicado em algoritmos sem modelo. Fornecemos análise teórica para mostrar a vantagem dos DMs na implementação de longo horizonte em relação a modelos e demonstramos a eficácia do DyDiff no contexto do aprendizado por reforço offline, onde o conjunto de dados para implementação é fornecido mas não há ambiente online para interação. Nosso código está disponível em https://github.com/FineArtz/DyDiff.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hanye Zhao
Xiaoshen Han
Zhengbang Zhu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhao et al. (Qua,) estudaram essa questão.
www.synapsesocial.com/papers/68e67f72b6db6435876090d6 — DOI: https://doi.org/10.48550/arxiv.2405.19189
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: