October 19, 2025Open Access

Les grands modèles de langage peuvent-ils aider à l'analyse multimodale du langage ? MMLA : un benchmark complet

Key Points

Les modèles n'atteignent qu'une précision de 60 % à 70 % dans la compréhension du langage humain complexe, indiquant des limites.
MMLA comprend plus de 61 000 énoncés multimodaux, englobant des études sur l'intention, l'émotion et le comportement de communication.
L'évaluation des LLMs et MLLMs a utilisé les méthodologies d'inférence zero-shot, d'ajustement supervisé et d'ajustement par instructions.
MMLA sert de ressource fondamentale pour faire progresser l'analyse multimodale du langage et explorer les capacités des modèles.

Abstract

L'analyse multimodale du langage est un domaine en rapide évolution qui exploite plusieurs modalités pour améliorer la compréhension des sémantiques de haut niveau sous-jacentes aux énoncés conversationnels humains. Malgré son importance, peu de recherches ont exploré la capacité des grands modèles de langage multimodaux (MLLMs) à comprendre la sémantique au niveau cognitif. Dans cet article, nous introduisons MMLA, un benchmark complet spécialement conçu pour combler cette lacune. MMLA comprend plus de 61 000 énoncés multimodaux provenant à la fois de scénarios simulés et du monde réel, couvrant six dimensions principales de la sémantique multimodale : l'intention, l'émotion, l'acte de dialogue, le sentiment, le style de parole et le comportement de communication. Nous évaluons huit branches majeures des LLMs et MLLMs en utilisant trois méthodes : l'inférence zero-shot, l'ajustement supervisé et l'ajustement par instructions. Des expérimentations approfondies révèlent que même les modèles ajustés atteignent seulement environ 60 % à 70 % de précision, mettant en évidence les limites des MLLMs actuels dans la compréhension du langage humain complexe. Nous pensons que MMLA servira de base solide pour explorer le potentiel des grands modèles de langage dans l'analyse multimodale du langage et fournira des ressources précieuses pour faire avancer ce domaine. Les jeux de données et le code sont disponibles en open source à https://github.com/thuiar/MMLA.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Hanlei Zhang

Zhuohang Li

Yeshuang Zhu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Les grands modèles de langage peuvent-ils aider à l'analyse multimodale du langage ? MMLA : un benchmark complet

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider