Key points are not available for this paper at this time.
近年来,多模态大型语言模型(MLLMs)在视觉问答和常识推理等任务中展现出卓越的能力,而视觉感知模型在检测和分割等感知任务中取得了显著进展。然而,MLLMs主要侧重于高层次的图文解释,难以实现细粒度的视觉理解;视觉感知模型则因模型容量有限,常面临开放世界分布偏移的问题。为解决这些挑战,我们提出了相互增强的多模态大型语言模型(MR-MLLM),这一新颖框架协同提升视觉感知与多模态理解。首先,提出共享查询融合机制,将视觉模型中的细节视觉输入与语言模型的语言深度融合,协同增强多模态理解与视觉感知。其次,提出感知增强的跨模态整合方法,融合来自视觉感知输出的新型模态信息,如目标检测边界框,以捕捉细微视觉元素,从而丰富对视觉和文本数据的理解。此外,创新性提出感知嵌入式提示生成机制,将感知信息嵌入语言模型提示中,实现响应的上下文与感知对齐,达成更精准的多模态解释。大量实验表明,MR-MLLM在多种多模态理解和视觉感知任务中表现优异,特别是在需要边缘案例视觉感知和细粒度语言理解的任务中。
Building similarity graph...
Analyzing shared references across papers
Loading...
Guanqun Wang
Xinyu Wei
Jiaming Liu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Sat,) 研究了这一问题。
www.synapsesocial.com/papers/68e63c0bb6db6435875cd98a — DOI: https://doi.org/10.48550/arxiv.2406.15768
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: