Key points are not available for this paper at this time.
Die Forschung zur Videogenerierung hat kürzlich enorme Fortschritte gemacht, die es ermöglichen, hochwertige Videos aus Textanweisungen oder Bildern zu erzeugen. Die Steuerung des Videogenerierungsprozesses ist ein wichtiges Ziel für die Zukunft, und neuere Ansätze, die Videogenerierungsmodelle auf Kameratrajektorien konditionieren, machen Fortschritte in diese Richtung. Dennoch bleibt es herausfordernd, ein Video derselben Szene aus mehreren verschiedenen Kameratrajektorien zu erzeugen. Lösungen für dieses Problem der Multi-Video-Generierung könnten unter anderem eine groß angelegte 3D-Szenengenerierung mit editierbaren Kameratrajektorien ermöglichen. Wir führen Collaborative Video Diffusion (CVD) als einen wichtigen Schritt in Richtung dieser Vision ein. Das CVD-Framework beinhaltet ein neuartiges cross-video-Synchronisationsmodul, das die Konsistenz zwischen passenden Frames desselben Videos, die aus verschiedenen Kamerapositionen gerendert wurden, mittels eines epipolaren Aufmerksamkeitsmechanismus fördert. Trainiert auf einem State-of-the-Art-Kamerasteuerungsmodul für Videogenerierung erzeugt CVD mehrere Videos, die aus verschiedenen Kameratrajektorien gerendert werden, mit deutlich besserer Konsistenz als Baseline-Methoden, was in umfangreichen Experimenten gezeigt wird. Projektseite: https://collaborativevideodiffusion.github.io/.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhengfei Kuang
Shengqu Cai
Hao He
Building similarity graph...
Analyzing shared references across papers
Loading...
Kuang et al. (Mon,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e68593b6db64358760de18 — DOI: https://doi.org/10.48550/arxiv.2405.17414