June 20, 2024Open Access

イベント志向の長時間動画理解に向けて

Key Points

Key points are not available for this paper at this time.

Abstract

動画マルチモーダル大規模言語モデル（MLLM）の急速な発展に伴い、その動画理解能力を評価するための多数のベンチマークが提案されています。しかし、動画内の豊富なイベントの欠如により、これらのデータセットは短絡的なバイアスを抱えている可能性があり、回答が数フレームから推測でき、動画全体を観る必要がない場合があります。この問題に対処するために、既存のデータセットと人手による注釈に基づいたイベント志向の長時間動画理解ベンチマークであるEvent-Benchを紹介します。Event-Benchは6つのイベント関連タスクと2,190件のテスト事例を含み、動画のイベント理解能力を包括的に評価します。加えて、人手注釈に基づくイベント多発データの不足に対応するため、イベント集中型動画指示を統合したコスト効率の高い手法であるVideo Instruction Merging（VIM）を提案します。広範な実験により、最も性能の良いモデルGPT-4oは総合的な正確度53.33を達成し、最良のオープンソースモデルを41.42%上回りました。効果的な指示合成手法と適応型モデルアーキテクチャを活用し、VIMはEvent-Bench上で最先端のオープンソースモデルおよびGPT-4Vを凌駕します。全てのコード、データ、モデルはhttps://github.com/RUCAIBox/Event-Benchで公開されています。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yifan Du

Kun Zhou

Yuqi Huo

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

イベント志向の長時間動画理解に向けて

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider