Key points are not available for this paper at this time.
기존 비디오 벤치마크는 주로 검색이나 질문응답(QA)과 같은 특수화된 다운스트림 작업을 고려하지만, 현대의 다중모달 AI 시스템은 인간의 시각 이해에 버금가는 균형 잡힌 상식 추론 능력을 갖추어야 합니다. 인간의 시간적-시각적 지각에서 중요한 구성 요소는 "일어나는 일", 즉 이벤트를 식별하고 인지적으로 모델링하는 능력입니다. 역사적으로 비디오 벤치마크 작업은 이 능력을 암묵적으로 테스트해 왔지만(예: 시각적 이벤트를 자연어로 설명하는 비디오 캡셔닝), 비디오 이벤트 이해 자체를 독립적인 작업으로 고려하지는 않았습니다. 최근 연구에서는 텍스트 이벤트 추출의 비디오 유사체를 탐구하기 시작했으나 상충하는 작업 정의와 매우 특정한 이벤트 유형에 제한된 데이터셋들로 구성되어 있습니다. 따라서 지난 10년 이상에 걸친 이벤트 중심 비디오 연구 분야가 풍부함에도 불구하고, 비디오 이벤트 이해가 어떻게 구조화되어야 하는지, 그리고 이를 연구할 수 있는 자원이 무엇인지 명확하지 않습니다. 본 논문에서는 이벤트 이해 능력을 요구하는 105개의 비디오 데이터셋을 조사하고, 이들이 견고한 비디오 이벤트 이해 연구에 어떻게 기여하는지 검토하며, 본 연구 분야의 맥락에서 제안된 비디오 이벤트 추출 작업을 평가합니다. 또한 본 조사를 토대로 데이터셋 큐레이션과 작업 구조화에 대한 제안을 하며, 비디오 이벤트의 고유한 시간적 특성과 시각적 내용의 모호성에 중점을 둡니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Kate Sanders
Benjamin Van Durme
Building similarity graph...
Analyzing shared references across papers
Loading...
샌더스 등(Thu,)이 이 문제를 연구했습니다.
www.synapsesocial.com/papers/68e64f88b6db6435875e02e9 — DOI: https://doi.org/10.48550/arxiv.2406.09646