Key points are not available for this paper at this time.
動画マルチモーダル大規模言語モデル(MLLM)の急速な発展に伴い、その動画理解能力を評価するための多数のベンチマークが提案されています。しかし、動画内の豊富なイベントの欠如により、これらのデータセットは短絡的なバイアスを抱えている可能性があり、回答が数フレームから推測でき、動画全体を観る必要がない場合があります。この問題に対処するために、既存のデータセットと人手による注釈に基づいたイベント志向の長時間動画理解ベンチマークであるEvent-Benchを紹介します。Event-Benchは6つのイベント関連タスクと2,190件のテスト事例を含み、動画のイベント理解能力を包括的に評価します。加えて、人手注釈に基づくイベント多発データの不足に対応するため、イベント集中型動画指示を統合したコスト効率の高い手法であるVideo Instruction Merging(VIM)を提案します。広範な実験により、最も性能の良いモデルGPT-4oは総合的な正確度53.33を達成し、最良のオープンソースモデルを41.42%上回りました。効果的な指示合成手法と適応型モデルアーキテクチャを活用し、VIMはEvent-Bench上で最先端のオープンソースモデルおよびGPT-4Vを凌駕します。全てのコード、データ、モデルはhttps://github.com/RUCAIBox/Event-Benchで公開されています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yifan Du
Kun Zhou
Yuqi Huo
Building similarity graph...
Analyzing shared references across papers
Loading...
Duら(木曜日)はこの問題を研究しました。
www.synapsesocial.com/papers/68e6404bb6db6435875d2087 — DOI: https://doi.org/10.48550/arxiv.2406.14129
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: