Key points are not available for this paper at this time.
近年、ビデオベースのアクション認識分野は急速に発展しています。Vision Transformers(ViT)は静止画像処理において大きな進歩を遂げましたが、動的ビデオ応用にはまだ十分に最適化されていません。畳み込みニューラルネットワーク(CNN)および関連モデルは、ビデオアクション認識において非常に優れた性能を発揮しています。しかし、高い計算コストや大きなメモリ消費といった無視できない問題も存在します。これらの問題に直面し、現在の研究はモデル性能の向上と現状の限界克服に有効な方法の模索に焦点を当てています。そこで、効率的なアクション認識を実現するために、マルチグラニュラリティおよびマルチスケール融合に基づく独自のビジョントランスフォーマーモデルを提案します。本モデルはビデオのアクション認識用に設計されており、計算コストとメモリ使用量を効果的に削減します。まず、トランスフォーマーブロックに統合されるマルチスケール・マルチグラニュラリティモジュールを考案しました。次に、階層構造を用いてさまざまなスケールの情報を管理し、マルチスケールの上にマルチグラニュラリティを導入することで、次の計算ステップに進むトークン数を選択的に決定し、冗長なトークンを削減します。さらに、粗細グラニュラリティ融合層を導入し、情報量の少ないトークンのシーケンス長を短縮します。これら二つのメカニズムを組み合わせることで、モデル内の資源配分を最適化し、重要情報を強調し冗長性を低減し、計算コストを最小化します。提案手法の評価には、アクション認識分野のベンチマークデータセットを用いた包括的な実験を実施しました。実験結果は、本手法が精度と効率の両面で最先端の性能を達成していることを示しています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Hua Huo
Bingjie Li
Electronics
Henan University of Science and Technology
Building similarity graph...
Analyzing shared references across papers
Loading...
Huoら(Thu,)がこの問題について研究しました。
www.synapsesocial.com/papers/68e76e44b6db6435876e35b2 — DOI: https://doi.org/10.3390/electronics13050948
Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context: