Key points are not available for this paper at this time.
長尺動画に対する質問応答は、短期間の活動を認識し、それらの詳細な関係性を推論することを含む難しい課題です。最先端の動画大規模言語モデル(vLLMs)は、新しいタスクにおける顕在的な能力により、実用的な解決策として有望視されています。しかし、数百万本の短尺の数秒の動画で訓練されているにもかかわらず、vLLMsは分単位の動画を理解し、それに関する質問に正確に答えることができません。この制約を克服するために、我々は軽量かつ自己教師ありのアプローチである「キーフレーム条件付き長尺動画LLM(Koala)」を提案します。Koalaは、事前学習済みのvLLMsを長尺動画に適応させるために、学習可能な時空間クエリを導入します。本手法では、まばらな動画のキーフレームから計算される視覚トークンに条件付ける2種類の新しいトークナイザーを導入し、短尺および長尺の動画シーンの理解を実現します。我々はHowTo100Mで提案手法を訓練し、ゼロショットの長尺動画理解ベンチマークで効果を示しました。その結果、全課題において最先端の大規模モデルを3~6%の絶対精度で上回りました。驚くべきことに、本アプローチは事前学習済みvLLMsの長尺動画理解を支援するだけでなく、短期間のアクション認識の精度向上にも寄与することを実証しました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Reuben Tan
Ximeng Sun
Ping Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
Tanら(Fri,)はこの課題について研究しました。
www.synapsesocial.com/papers/68e70547b6db64358767f28c — DOI: https://doi.org/10.48550/arxiv.2404.04346
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: