迈向视觉与语言模型的多模态上下文学习 | Synapse