拡散モデルは、動画作成やバーチャルエージェントなどの様々な用途において、音声からリアルな共話動画を合成できます。しかし、既存の拡散ベースの手法は多くのノイズ除去ステップと高コストなアテンション機構のため処理が遅く、リアルタイム実装が困難です。本研究では、多段階の拡散動画モデルを少段階の学生モデルに蒸留します。従来の拡散蒸留法をそのまま適用すると動画品質が低下し、リアルタイム性能も達成できません。これらの課題を解決するために、新たな動画蒸留法では、入力される人間のポーズ条件をアテンションと損失関数双方に活用します。まず、入力ポーズのキーポイント間の正確な対応関係を用いて、話者の顔、手、上半身など関連領域へのアテンションを誘導します。この入力認識型スパースアテンションにより冗長な計算を削減し、身体部位の時間的対応を強化して推論効率と動作の一貫性を向上させます。さらに、視覚品質向上のため、リップシンクロナイゼーションと手の動きのリアリティを改善する入力認識型蒸留損失を導入します。入力認識型スパースアテンションと蒸留損失を統合することで、本手法は最近の音声駆動および入力駆動手法と比較して視覚品質を向上させつつリアルタイム性能を実現します。広範な実験により、本アルゴリズム設計の有効性を示します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Biao Lu
Ziyi Chen
Jing Xiao
Building similarity graph...
Analyzing shared references across papers
Loading...
Lu et al. (Thu,) はこの問題を研究しました。
www.synapsesocial.com/papers/690e8b75a5b062d7a4e73940 — DOI: https://doi.org/10.48550/arxiv.2510.02617
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: