拡散ベースやフローベースのモデルは動画合成で大きな進歩を遂げているものの、複数の反復サンプリングステップを必要とし、多大な計算コストを伴います。軌道保持や分布整合のみに基づく蒸留法が動画生成モデルの高速化のために多く開発されてきましたが、これらの手法は数ステップの設定において性能の低下やアーティファクトの増加を引き起こすことが多いです。これらの制約に対処するために、我々はSwiftVideoを提案します。SwiftVideoは軌道保持と分布整合戦略の利点を組み合わせた統一且つ安定した蒸留フレームワークです。我々の手法は連続時間整合性蒸留を導入し、常微分方程式(ODE)の軌道を正確に保持します。続いて合成データと実データ間の分布整合と異なる推論ステップ間での軌道整合を含む二重視点アライメントを提案します。本手法は推論ステップ数を大幅に削減しながら高品質な動画生成を維持します。OpenVid-1Mベンチマークでの定量評価により、本手法が数ステップ動画生成において既存手法を大幅に凌駕することが示されました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yanxiao Sun
Jiafu Wu
Yun Cao
Building similarity graph...
Analyzing shared references across papers
Loading...
Sun et al. (Fri,)はこの問題を研究しました。
www.synapsesocial.com/papers/68f10ecee6a12fd042899a73 — DOI: https://doi.org/10.48550/arxiv.2508.06082