Key points are not available for this paper at this time.
L'augmentation de la désinformation multimodale sur les plateformes sociales pose des défis importants pour les individus et les sociétés. Sa crédibilité accrue et son impact plus large comparés à la désinformation textuelle rendent la détection complexe, nécessitant un raisonnement robuste à travers différents types de médias ainsi qu'une connaissance approfondie pour une vérification précise. L’émergence des Large Vision Language Models (LVLM) offre une solution potentielle à ce problème. Tirant parti de leur compétence à traiter les informations visuelles et textuelles, les LVLM démontrent des capacités prometteuses dans la reconnaissance d’informations complexes et présentent de solides compétences en raisonnement. Dans cet article, nous étudions d’abord le potentiel des LVLM pour la détection de la désinformation multimodale. Nous constatons que, bien que les LVLM surpassent les LLM en performances, leur raisonnement profond peut montrer une puissance limitée en l'absence de preuves. Sur la base de ces observations, nous proposons LEMMA : détection multimodale de la désinformation améliorée par LVLM avec augmentation des connaissances externes. LEMMA exploite l’intuition et les capacités de raisonnement des LVLM tout en les augmentant avec des connaissances externes pour améliorer la précision de la détection de la désinformation. Notre méthode améliore la précision de 7 % et 13 % respectivement sur les jeux de données Twitter et Fakeddit, par rapport au meilleur LVLM de référence.
Building similarity graph...
Analyzing shared references across papers
Loading...
Keyang Xuan
Yi Li
Fan Yang
Building similarity graph...
Analyzing shared references across papers
Loading...
Xuan et al. (Mon,) ont étudié cette question.
www.synapsesocial.com/papers/68e78968b6db6435876fbd5c — DOI: https://doi.org/10.48550/arxiv.2402.11943
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: