October 19, 2025Open Access

大型语言模型能助力多模态语言分析吗？MMLA：一个全面的基准测试

Key Points

模型在理解复杂人类语言方面准确率仅为60%至70%，显示其局限性。
MMLA包含超过61,000条多模态话语，涵盖意图、情感及交流行为研究。
对LLM和MLLM的评估采用了零样本推理、有监督微调和指令调优方法。
MMLA作为推动多模态语言分析和探索模型能力的基础资源。

Abstract

多模态语言分析是一个快速发展的领域，利用多种模态增强对人类会话话语中高层语义的理解。尽管其重要性显著，但鲜有研究探讨多模态大型语言模型（MLLMs）理解认知层面语义的能力。本文提出了MMLA，一套专门设计用以填补这一空白的综合基准。MMLA包含超过61,000条来自模拟和真实场景的多模态话语，覆盖多模态语义的六个核心维度：意图、情感、对话行为、情绪倾向、说话风格及交流行为。我们采用零样本推理、有监督微调和指令调优三种方法，评估了八个主流LLM和MLLM分支。详尽实验显示，即使是微调模型的准确率也仅约为60%~70%，凸显当前MLLM在理解复杂人类语言方面的局限性。我们相信MMLA将为探索大型语言模型在多模态语言分析中的潜力奠定坚实基础，并提供宝贵资源推动该领域发展。数据集和代码已开源，详见https://github.com/thuiar/MMLA。

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hanlei Zhang

Zhuohang Li

Yeshuang Zhu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

大型语言模型能助力多模态语言分析吗？MMLA：一个全面的基准测试

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider