February 29, 2024Open Access

MgMViT：効率的なアクション認識のためのマルチグラニュラリティおよびマルチスケールビジョントランスフォーマー

Key Points

Key points are not available for this paper at this time.

Abstract

近年、ビデオベースのアクション認識分野は急速に発展しています。Vision Transformers（ViT）は静止画像処理において大きな進歩を遂げましたが、動的ビデオ応用にはまだ十分に最適化されていません。畳み込みニューラルネットワーク（CNN）および関連モデルは、ビデオアクション認識において非常に優れた性能を発揮しています。しかし、高い計算コストや大きなメモリ消費といった無視できない問題も存在します。これらの問題に直面し、現在の研究はモデル性能の向上と現状の限界克服に有効な方法の模索に焦点を当てています。そこで、効率的なアクション認識を実現するために、マルチグラニュラリティおよびマルチスケール融合に基づく独自のビジョントランスフォーマーモデルを提案します。本モデルはビデオのアクション認識用に設計されており、計算コストとメモリ使用量を効果的に削減します。まず、トランスフォーマーブロックに統合されるマルチスケール・マルチグラニュラリティモジュールを考案しました。次に、階層構造を用いてさまざまなスケールの情報を管理し、マルチスケールの上にマルチグラニュラリティを導入することで、次の計算ステップに進むトークン数を選択的に決定し、冗長なトークンを削減します。さらに、粗細グラニュラリティ融合層を導入し、情報量の少ないトークンのシーケンス長を短縮します。これら二つのメカニズムを組み合わせることで、モデル内の資源配分を最適化し、重要情報を強調し冗長性を低減し、計算コストを最小化します。提案手法の評価には、アクション認識分野のベンチマークデータセットを用いた包括的な実験を実施しました。実験結果は、本手法が精度と効率の両面で最先端の性能を達成していることを示しています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hua Huo

Bingjie Li

Journals

Electronics

Actions

Institutions

Henan University of Science and Technology

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Huoら（Thu,）がこの問題について研究しました。

www.synapsesocial.com/papers/68e76e44b6db6435876e35b2 — DOI: https://doi.org/10.3390/electronics13050948

Also consider

Synapse has enriched 3 closely related papers on similar clinical questions. Consider them for comparative context:

Adaptive Token Sampling for Efficient Vision Transformers· 2022 · 151 citations
ActionFormer: Localizing Moments of Actions with Transformers· 2022 · 372 citations
Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks· 2017 · 1,808 citations

MgMViT：効率的なアクション認識のためのマルチグラニュラリティおよびマルチスケールビジョントランスフォーマー

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Journals

Actions

Institutions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider