L'analyse multimodale du langage est un domaine en rapide évolution qui exploite plusieurs modalités pour améliorer la compréhension des sémantiques de haut niveau sous-jacentes aux énoncés conversationnels humains. Malgré son importance, peu de recherches ont exploré la capacité des grands modèles de langage multimodaux (MLLMs) à comprendre la sémantique au niveau cognitif. Dans cet article, nous introduisons MMLA, un benchmark complet spécialement conçu pour combler cette lacune. MMLA comprend plus de 61 000 énoncés multimodaux provenant à la fois de scénarios simulés et du monde réel, couvrant six dimensions principales de la sémantique multimodale : l'intention, l'émotion, l'acte de dialogue, le sentiment, le style de parole et le comportement de communication. Nous évaluons huit branches majeures des LLMs et MLLMs en utilisant trois méthodes : l'inférence zero-shot, l'ajustement supervisé et l'ajustement par instructions. Des expérimentations approfondies révèlent que même les modèles ajustés atteignent seulement environ 60 % à 70 % de précision, mettant en évidence les limites des MLLMs actuels dans la compréhension du langage humain complexe. Nous pensons que MMLA servira de base solide pour explorer le potentiel des grands modèles de langage dans l'analyse multimodale du langage et fournira des ressources précieuses pour faire avancer ce domaine. Les jeux de données et le code sont disponibles en open source à https://github.com/thuiar/MMLA.
Building similarity graph...
Analyzing shared references across papers
Loading...
Hanlei Zhang
Zhuohang Li
Yeshuang Zhu
Building similarity graph...
Analyzing shared references across papers
Loading...
Zhang et al. (mercredi) ont étudié cette question.
www.synapsesocial.com/papers/68f43f09854d1061a58ac9f6 — DOI: https://doi.org/10.48550/arxiv.2504.16427
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: