Key points are not available for this paper at this time.
多模态大型语言模型(MLLMs)在需要跨领域知识的各种下游任务中展现出显著潜力。能够处理视频的MLLMs,称为Video-MLLMs,在视频语言理解领域引起广泛关注。然而,视频,尤其是长视频,包含比图像更多的视觉token,这使得LLMs处理起来更具挑战性。现有方法或下采样视觉特征,或扩展LLM的上下文大小,从而可能丢失高分辨率信息或降低推理速度。为解决这些限制,我们在视觉编码器与大型语言模型(LLM)之间的中间投影器中应用了交叉注意力层。由于原始交叉注意力机制对时间顺序不敏感,我们进一步在交叉注意力层中引入了因果交叉注意力掩码(CCAMs)。该Video-MLLM被命名为Video-CCAM,采用简单的两阶段训练方式:特征对齐和视觉指令微调。我们基于不同规模的LLM(4B、9B和14B)开发了多个Video-CCAM模型。Video-CCAM证明了其作为强大Video-MLLM的能力,并在短视频到长视频中表现出卓越性能。在MVBench和VideoChatGPT-QA等标准视频基准测试中,Video-CCAM展示了出色的成绩(MVBench和TGIF-QA中排名第1/2/3,MSVD-QA、MSRVTT-QA及ActivityNet-QA中排名第2/3/4)。在涵盖长视频的基准中,Video-CCAM模型能够直接适配长视频理解,尽管仅用图像与16帧视频训练,仍能取得优秀分数。使用96帧(是训练帧数的6倍)时,Video-CCAM在VideoVista中排名第1/2/3,在MLVU中排名第1/2/4,是所有开源Video-MLLM中表现顶尖的模型。代码已公开,地址:https://github.com/QQ-MM/Video-CCAM。
Building similarity graph...
Analyzing shared references across papers
Loading...
J Fei
Dian Li
Zhidong Deng
Building similarity graph...
Analyzing shared references across papers
Loading...
Fei等人(Mon,)研究了该问题。
www.synapsesocial.com/papers/68e5b010b6db6435875491ac — DOI: https://doi.org/10.48550/arxiv.2408.14023
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: