Key points are not available for this paper at this time.
複数の基盤モデル(大規模言語モデルおよび視覚言語モデル)を新規の統一メモリ機構と統合することで、特に長尺ビデオにおける長期的時間関係を捉えるという困難なビデオ理解課題に取り組む方法を検討します。具体的には、提案するマルチモーダルエージェントVideoAgentは、1)ビデオの一般的な時間的イベント記述とオブジェクト中心の追跡状態の両方を格納する構造化メモリを構築し、2)入力タスククエリに対してビデオセグメントの位置特定やオブジェクトメモリ照会を含むツールと他の視覚基盤モデルを用い、LLMのゼロショットツール使用能力を活用して対話的にタスクを解決します。VideoAgentは、複数の長期的ビデオ理解ベンチマークで優れた性能を示し、NExT-QAで平均6.6%、EgoSchemaで26.0%のベースラインに対する増加を達成し、オープンソースモデルとGemini 1.5 Proを含むプライベートモデルとの差を縮めています。
Building similarity graph...
Analyzing shared references across papers
Loading...
Yue Fan
Xiaojian Ma
Rujie Wu
Building similarity graph...
Analyzing shared references across papers
Loading...
Fanら(Mon,)はこの問題を研究しました。
www.synapsesocial.com/papers/68e73a7cb6db6435876b3b16 — DOI: https://doi.org/10.48550/arxiv.2403.11481
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: