November 8, 2025Open Access

入力認識型スパースアテンションによるリアルタイム共話動画生成

Key Points

リップシンクロナイゼーションと手の動作のリアリティを向上させつつ、リアルタイム性能を達成しています。
人間のポーズキーポイントを活用することで、推論効率と動作の一貫性に大幅な改善をもたらします。
様々な応用における観察分析から、本アルゴリズムが従来の音声駆動手法を上回ることを示しています。
入力認識型スパースアテンションの統合により、冗長な計算問題を解決し、より効果的な動画生成アプローチを実現しています。

Abstract

拡散モデルは、動画作成やバーチャルエージェントなどの様々な用途において、音声からリアルな共話動画を合成できます。しかし、既存の拡散ベースの手法は多くのノイズ除去ステップと高コストなアテンション機構のため処理が遅く、リアルタイム実装が困難です。本研究では、多段階の拡散動画モデルを少段階の学生モデルに蒸留します。従来の拡散蒸留法をそのまま適用すると動画品質が低下し、リアルタイム性能も達成できません。これらの課題を解決するために、新たな動画蒸留法では、入力される人間のポーズ条件をアテンションと損失関数双方に活用します。まず、入力ポーズのキーポイント間の正確な対応関係を用いて、話者の顔、手、上半身など関連領域へのアテンションを誘導します。この入力認識型スパースアテンションにより冗長な計算を削減し、身体部位の時間的対応を強化して推論効率と動作の一貫性を向上させます。さらに、視覚品質向上のため、リップシンクロナイゼーションと手の動きのリアリティを改善する入力認識型蒸留損失を導入します。入力認識型スパースアテンションと蒸留損失を統合することで、本手法は最近の音声駆動および入力駆動手法と比較して視覚品質を向上させつつリアルタイム性能を実現します。広範な実験により、本アルゴリズム設計の有効性を示します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Biao Lu

Ziyi Chen

Jing Xiao

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

入力認識型スパースアテンションによるリアルタイム共話動画生成

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider