August 26, 2024Open Access

Video-CCAM：通过因果交叉注意力掩码提升短视频与长视频的视频语言理解

Key Points

Key points are not available for this paper at this time.

Abstract

多模态大型语言模型（MLLMs）在需要跨领域知识的各种下游任务中展现出显著潜力。能够处理视频的MLLMs，称为Video-MLLMs，在视频语言理解领域引起广泛关注。然而，视频，尤其是长视频，包含比图像更多的视觉token，这使得LLMs处理起来更具挑战性。现有方法或下采样视觉特征，或扩展LLM的上下文大小，从而可能丢失高分辨率信息或降低推理速度。为解决这些限制，我们在视觉编码器与大型语言模型（LLM）之间的中间投影器中应用了交叉注意力层。由于原始交叉注意力机制对时间顺序不敏感，我们进一步在交叉注意力层中引入了因果交叉注意力掩码（CCAMs）。该Video-MLLM被命名为Video-CCAM，采用简单的两阶段训练方式：特征对齐和视觉指令微调。我们基于不同规模的LLM(4B、9B和14B)开发了多个Video-CCAM模型。Video-CCAM证明了其作为强大Video-MLLM的能力，并在短视频到长视频中表现出卓越性能。在MVBench和VideoChatGPT-QA等标准视频基准测试中，Video-CCAM展示了出色的成绩（MVBench和TGIF-QA中排名第1/2/3，MSVD-QA、MSRVTT-QA及ActivityNet-QA中排名第2/3/4）。在涵盖长视频的基准中，Video-CCAM模型能够直接适配长视频理解，尽管仅用图像与16帧视频训练，仍能取得优秀分数。使用96帧（是训练帧数的6倍）时，Video-CCAM在VideoVista中排名第1/2/3，在MLVU中排名第1/2/4，是所有开源Video-MLLM中表现顶尖的模型。代码已公开，地址：https://github.com/QQ-MM/Video-CCAM。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

J Fei

Dian Li

Zhidong Deng

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Video-CCAM：通过因果交叉注意力掩码提升短视频与长视频的视频语言理解

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider