Key points are not available for this paper at this time.
대규모 비전-언어 모델(LVLM)의 출현은 멀티모달 맥락, 특히 비디오 이해 분야에서의 응용 연구를 촉진했습니다. 기존 VideoQA 벤치마크는 정량적 지표를 제공함에도 불구하고 비디오 콘텐츠의 전체 스펙트럼을 포괄하지 못하고 모델의 시간적 이해력을 충분히 평가하지 못하는 한계가 있습니다. 이러한 한계를 극복하기 위해, 우리는 LVLM의 비디오 이해 능력을 엄밀히 평가하기 위한 정량적 벤치마크인 MMBench-Video를 소개합니다. MMBench-Video는 유튜브에서 수집한 긴 비디오를 포함하며 실제 사용 사례를 반영한 자유 형식 질문을 사용합니다. 이 벤치마크는 모델의 시간적 추론 능력을 탐구하도록 세심하게 설계되었으며, 모든 질문은 체계적으로 구성된 능력 분류법에 따라 사람이 주석을 달았습니다. 우리는 자동 평가를 위해 GPT-4를 활용하여 이전의 LLM 기반 평가보다 뛰어난 정확성과 강건성을 입증했습니다. MMBench-Video를 사용하여 이미지 및 비디오용 독점 및 오픈소스 LVLM에 대한 포괄적인 평가를 수행했으며, 이는 연구 커뮤니티에 귀중한 자원으로 작용하여 LVLM 평가 개선과 비디오 이해 분야 발전에 기여합니다. MMBench-Video 평가 코드는 VLMEvalKit(https://github.com/open-compass/VLMEvalKit)에 통합될 예정입니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xinyu Fang
Kangrui Mao
Haodong Duan
Building similarity graph...
Analyzing shared references across papers
Loading...
Fang 등(목요일,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e63f62b6db6435875d1256 — DOI: https://doi.org/10.48550/arxiv.2406.14515