March 19, 2024Open Access

面向视觉与语言模型的多模态上下文学习

Key Points

Key points are not available for this paper at this time.

Abstract

受能够真正理解人类语言的大型语言模型（LLMs）兴起的启发，在使其他非语言模态被LLM“理解”方面取得了重大进展，主要通过将它们的样本转换为一系列嵌入的类语言标记，直接输入到LLM（解码器）的输入流中。然而，迄今为止，对将LLM的核心能力之一——上下文学习（ICL）能力——转移（及评估）到新兴的视觉语言模型（VLMs）上的关注有限，换言之，就是通过上下文中的图像+文本示范来引导VLMs完成期望的下游任务或输出结构。在本工作中，我们深入分析了一些最先进的VLMs遵循ICL指令的能力，发现它们在这方面表现不足。我们发现，即使是经过大规模混合模态预训练并被隐式指导利用交织的图像和文本信息（旨在利用多图像的有益上下文）的模型，在少量示范（ICL）提示下表现不佳，可能由于缺乏“直接的”ICL指令调优。为验证这一假设，我们提出了一种简单但效果显著的策略，通过扩展常见的VLM对齐框架以支持ICL，包括其方法论和训练课程。我们探索、分析并提供了有效数据混合的见解，实现了相较最强VLM基线和多种ICL基准显著提升21.03%（平均11.3%）的ICL性能提升。我们还贡献了用于VLMs中ICL评估的新基准，并讨论了它们相较于已有工作的优势。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Sivan Doveh

Shaked Perek

M. Jehanzeb Mirza

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

面向视觉与语言模型的多模态上下文学习

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider