Key points are not available for this paper at this time.
대규모 다중모달 모델(LMM)의 급격한 발전으로 비디오 분석에서 중요한 돌파구가 있었음에도 불구하고, 이들 모델의 비디오 이해 및 추론 성능을 포괄적으로 평가할 수 있는 다목적 평가 벤치마크는 여전히 부족합니다. 이를 해결하기 위해, 우리는 다양한 콘텐츠 카테고리, 길이, 능력을 아우르는 도전을 통합한 비디오 QA 벤치마크인 VideoVista를 제안합니다. 구체적으로, VideoVista는 14개 카테고리(e.g., Howto, Film, Entertainment)에 걸쳐 3,400개의 비디오로부터 파생된 25,000개의 질문을 포함하며, 비디오 길이는 몇 초에서 10분 이상까지 다양합니다. 또한 이상 감지, 상호작용 이해 등 19가지 이해 과제와 논리 추론, 인과 추론 등 8가지 추론 과제를 포함합니다. 이를 위해, 강력한 GPT-4o와 고급 분석 도구(예: 비디오 분할, 객체 분할 및 추적)를 활용한 자동 데이터 구축 프레임워크를 제시합니다. 이 프레임워크를 이용하여 비디오 관련 LMM(Video-LMM)의 성능 향상을 위한 학습 데이터도 구축했습니다. 최첨단 모델에 대한 포괄적이고 정량적인 평가를 통해, 1) Video-LMM은 시간적 위치, 객체 추적, 이상 감지 등 세밀한 비디오 작업에 어려움을 겪고 있으며; 2) 논리적이고 관계적 추론 능력이 열악하며; 3) 오픈소스 Video-LMM의 성능은 GPT-4o 및 Gemini-1.5에 비해 20점 이상 낮다는 점을 밝혀냈습니다. 이는 VideoVista가 비디오를 정확히 이해하고 정밀한 추론을 수행할 수 있는 LMM 발전에 중요한 역할을 할 것임을 강조합니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yunxin Li
Xinyu Chen
Baotian Hu
Building similarity graph...
Analyzing shared references across papers
Loading...
Li 등(월요일)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e64779b6db6435875d902f — DOI: https://doi.org/10.48550/arxiv.2406.11303
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: