May 23, 2024Open Access

Explaining Multi-modal Large Language Models by Analyzing their Vision Perception

Puntos clave

Los puntos clave no están disponibles para este artículo en este momento.

Resumen

Multi-modal Large Language Models (MLLMs) have demonstrated remarkable capabilities in understanding and generating content across various modalities, such as images and text. However, their interpretability remains a challenge, hindering their adoption in critical applications. This research proposes a novel approach to enhance the interpretability of MLLMs by focusing on the image embedding component. We combine an open-world localization model with a MLLM, thus creating a new architecture able to simultaneously produce text and object localization outputs from the same vision embedding. The proposed architecture greatly promotes interpretability, enabling us to design a novel saliency map to explain any output token, to identify model hallucinations, and to assess model biases through semantic adversarial perturbations.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Cite this study

Giulivi et al. (Thu,) studied this question.

www.synapsesocial.com/papers/68e68cfdb6db643587614d3c — DOI: https://doi.org/10.48550/arxiv.2405.14612

Also consider

Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context:

Authors

Loris Giulivi

Giacomo Boracchi

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Explaining Multi-modal Large Language Models by Analyzing their Vision Perception

Puntos clave

Resumen

Citation Network

Connected Papers

Discussion

Cite this study

Also consider

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion