April 3, 2019Open Access

VideoBERT：映像と言語の表現学習のための共同モデル

Key Points

Key points are not available for this paper at this time.

Abstract

自己教師あり学習は、YouTubeのようなプラットフォームで利用可能な豊富なラベルなしデータを活用するためにますます重要になっています。既存のほとんどの手法が低レベルの表現を学習するのに対し、我々は明示的な教師なしで高レベルの特徴を学習するための視覚と言語の共同モデルを提案します。特に、言語モデルでの最近の成功に触発され、我々はBERTモデルを基に、映像データのベクトル量子化と市販の音声認識出力からそれぞれ導出された視覚と言語のトークン列に対する双方向の共同分布を学習します。VideoBERTをアクションクラス分類や映像キャプショニングなど多数のタスクで使用しました。オープンボキャブラリー分類へ直接適用可能であること、かつ大量の訓練データとクロスモーダル情報が性能に不可欠であることを示しました。さらに、映像キャプショニングで最先端を上回り、定量的結果がモデルが高レベルの意味的特徴を学習していることを検証します。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Chen Sun

Austin Myers

Carl Vondrick

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Sunら（Wed,）はこの問題を研究しました。

www.synapsesocial.com/papers/6a0b34d79b4eb2f7ce2e5bc6 — DOI: https://doi.org/10.48550/arxiv.1904.01766

Also consider

Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context:

Going Deeper with Convolutions· 2014 · 1,390 citations
Towards Automatic Learning of Procedures from Web Instructional Videos· 2017 · 223 citations
The Kinetics Human Action Video Dataset· 2017 · 2,888 citations
An Uncertain Future: Forecasting from Static Images Using Variational Autoencoders· 2016 · 504 citations

VideoBERT：映像と言語の表現学習のための共同モデル

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider