多模态语言分析是一个快速发展的领域,利用多种模态增强对人类会话话语中高层语义的理解。尽管其重要性显著,但鲜有研究探讨多模态大型语言模型(MLLMs)理解认知层面语义的能力。本文提出了MMLA,一套专门设计用以填补这一空白的综合基准。MMLA包含超过61,000条来自模拟和真实场景的多模态话语,覆盖多模态语义的六个核心维度:意图、情感、对话行为、情绪倾向、说话风格及交流行为。我们采用零样本推理、有监督微调和指令调优三种方法,评估了八个主流LLM和MLLM分支。详尽实验显示,即使是微调模型的准确率也仅约为60%~70%,凸显当前MLLM在理解复杂人类语言方面的局限性。我们相信MMLA将为探索大型语言模型在多模态语言分析中的潜力奠定坚实基础,并提供宝贵资源推动该领域发展。数据集和代码已开源,详见https://github.com/thuiar/MMLA。
Building similarity graph...
Analyzing shared references across papers
Loading...
Hanlei Zhang
Zhuohang Li
Yeshuang Zhu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang等人(周三,)研究了此问题。
www.synapsesocial.com/papers/68f43f09854d1061a58ac9f6 — DOI: https://doi.org/10.48550/arxiv.2504.16427
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: