视觉-语言模型中的动态多模态原型学习 | Synapse