Key points are not available for this paper at this time.
大型言語モデル(LLM)は、テキストベースのタスクの理解と処理において顕著な能力を示しています。これらの特性を動画モダリティに転送しようとする試みが数多く存在し、これらはVideo-LLMと呼ばれています。しかし、既存のVideo-LLMは粗粒度の意味しか捉えることができず、特定の動画セグメントの理解や位置特定に関わるタスクを効果的に処理できません。これらの課題に対処するために、細粒度の時間的理解タスクを達成可能なVideo-LLMであるMomentorを提案します。Momentorのトレーニングを支援するために、自動データ生成エンジンを設計し、セグメントレベルの指示データを持つ大規模な動画指示データセットMoment-10Mを構築しました。Moment-10MでMomentorをトレーニングすることで、セグメントレベルの推論と位置特定が可能になります。いくつかのタスクにおけるゼロショット評価では、Momentorが時間的に根ざした細粒度の理解と位置特定に優れていることが示されました。
Building similarity graph...
Analyzing shared references across papers
Loading...
Qian Long
Juncheng Li
Yu Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Longら(Sat,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e78cdeb6db6435876feada — DOI: https://doi.org/10.48550/arxiv.2402.11435
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: