Key points are not available for this paper at this time.
自己教師あり学習は、YouTubeのようなプラットフォームで利用可能な豊富なラベルなしデータを活用するためにますます重要になっています。既存のほとんどの手法が低レベルの表現を学習するのに対し、我々は明示的な教師なしで高レベルの特徴を学習するための視覚と言語の共同モデルを提案します。特に、言語モデルでの最近の成功に触発され、我々はBERTモデルを基に、映像データのベクトル量子化と市販の音声認識出力からそれぞれ導出された視覚と言語のトークン列に対する双方向の共同分布を学習します。VideoBERTをアクションクラス分類や映像キャプショニングなど多数のタスクで使用しました。オープンボキャブラリー分類へ直接適用可能であること、かつ大量の訓練データとクロスモーダル情報が性能に不可欠であることを示しました。さらに、映像キャプショニングで最先端を上回り、定量的結果がモデルが高レベルの意味的特徴を学習していることを検証します。
Building similarity graph...
Analyzing shared references across papers
Loading...
Chen Sun
Austin Myers
Carl Vondrick
Building similarity graph...
Analyzing shared references across papers
Loading...
Sunら(Wed,)はこの問題を研究しました。
www.synapsesocial.com/papers/6a0b34d79b4eb2f7ce2e5bc6 — DOI: https://doi.org/10.48550/arxiv.1904.01766
Synapse has enriched 4 closely related papers on similar clinical questions. Consider them for comparative context: