Exploramos a síntese de novas perspectivas para cenas dinâmicas a partir de vídeos monoculares. Abordagens anteriores dependem de otimização custosa em tempo de teste de representações 4D ou não preservam a geometria da cena quando treinadas de forma direta. Nossa abordagem baseia-se em três insights chave: (1) pixels covisíveis (visíveis nas vistas de entrada e de destino) podem ser renderizados primeiro reconstruindo a cena 3D dinâmica e renderizando a reconstrução a partir das novas vistas e (2) pixels ocultos nas novas vistas podem ser "inpaintados" com modelos de difusão de vídeo 2D de fluxo direto. Notavelmente, nosso modelo de difusão de inpainting de vídeo (CogNVS) pode ser auto-supervisionado a partir de vídeos 2D, permitindo treinar em um grande corpus de vídeos naturais. Isso, por sua vez, permite (3) a aplicação zero-shot do CogNVS em novos vídeos de teste via refinamento em tempo de teste. Verificamos empiricamente que o CogNVS supera quase todas as abordagens anteriores para síntese de novas perspectivas de cenas dinâmicas a partir de vídeos monoculares.
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen et al. (qua,) estudaram essa questão.
www.synapsesocial.com/papers/68f4b10d3d9d770bbc696f6b — DOI: https://doi.org/10.48550/arxiv.2507.12646
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:
Kaihua Chen
Tarasha Khurana
Deva Ramanan
Building similarity graph...
Analyzing shared references across papers
Loading...