June 22, 2024Open Access

MR-MLLM：多模态理解与视觉感知的相互促进

Key Points

Key points are not available for this paper at this time.

Abstract

近年来，多模态大型语言模型（MLLMs）在视觉问答和常识推理等任务中展现出卓越的能力，而视觉感知模型在检测和分割等感知任务中取得了显著进展。然而，MLLMs主要侧重于高层次的图文解释，难以实现细粒度的视觉理解；视觉感知模型则因模型容量有限，常面临开放世界分布偏移的问题。为解决这些挑战，我们提出了相互增强的多模态大型语言模型（MR-MLLM），这一新颖框架协同提升视觉感知与多模态理解。首先，提出共享查询融合机制，将视觉模型中的细节视觉输入与语言模型的语言深度融合，协同增强多模态理解与视觉感知。其次，提出感知增强的跨模态整合方法，融合来自视觉感知输出的新型模态信息，如目标检测边界框，以捕捉细微视觉元素，从而丰富对视觉和文本数据的理解。此外，创新性提出感知嵌入式提示生成机制，将感知信息嵌入语言模型提示中，实现响应的上下文与感知对齐，达成更精准的多模态解释。大量实验表明，MR-MLLM在多种多模态理解和视觉感知任务中表现优异，特别是在需要边缘案例视觉感知和细粒度语言理解的任务中。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Guanqun Wang

Xinyu Wei

Jiaming Liu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

MR-MLLM：多模态理解与视觉感知的相互促进

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider