Key points are not available for this paper at this time.
본 논문에서는 비디오 및 오디오 지향 작업에서 공간-시간 모델링과 오디오 이해를 강화하기 위해 설계된 Video Large Language Models(Video-LLMs) 세트인 VideoLLaMA 2를 제안합니다. 전작을 기반으로 VideoLLaMA 2는 비디오 데이터의 복잡한 공간 및 시간적 역학을 효과적으로 포착하는 맞춤형 공간-시간 컨볼루션(STC) 커넥터를 통합합니다. 또한, 공동 학습을 통해 오디오 분기를 모델에 통합하여 오디오 단서를 원활하게 반영함으로써 모델의 다중모달 이해 능력을 풍부하게 합니다. 다지선다형 비디오 질문 응답(MC-VQA), 개방형 비디오 질문 응답(OE-VQA), 비디오 캡셔닝(VC) 작업에 대한 포괄적 평가 결과, VideoLLaMA 2는 오픈 소스 모델 중에서 일관되게 경쟁력 있는 성과를 내며 여러 벤치마크에서 일부 독점 모델에 근접합니다. 더불어 기존 모델 대비 오디오 전용 및 오디오-비디오 질문 응답(AQA & OE-AVQA) 벤치마크에서 합리적인 향상을 보입니다. 이러한 발전은 VideoLLaMA 2가 다중모달 이해에서 우수한 성능을 보이며 지능형 비디오 분석 시스템의 새로운 기준을 제시함을 강조합니다. 모든 모델은 추가 연구 촉진을 위해 공개됩니다.
Building similarity graph...
Analyzing shared references across papers
Loading...
Zesen Cheng
Sicong Leng
Hang Zhang
Building similarity graph...
Analyzing shared references across papers
Loading...
Cheng et al. (Tue,)이 이 질문을 연구했습니다.
www.synapsesocial.com/papers/68e6542bb6db6435875e2fca — DOI: https://doi.org/10.48550/arxiv.2406.07476
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: