Key points are not available for this paper at this time.
Multimodale Große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten im visuellen Verständnis und in der Schlussfolgerung gezeigt und liefern einigermaßen plausible Antworten, wie Bildbeschreibungen. Dies hat umfangreiche Forschungen zur Evaluierung von MLLMs angeregt. Die meisten Evaluierungsbenchmarks gehen davon aus, dass falsche Antworten auf ein mangelndes Verständnis des visuellen Inhalts hinweisen. Unsere Ergebnisse zeigen jedoch, dass MLLMs in vielen Fällen Fragen falsch beantworten, obwohl sie den visuellen Inhalt korrekt verstanden haben. Dies legt nahe, dass falsche Antworten nicht notwendigerweise auf ein fehlendes Verständnis schließen lassen, sondern möglicherweise auf mangelnde Robustheit gegenüber suggestiven Fragen zurückzuführen sind. Um die Verständniskapazität und Robustheit von MLLMs gegenüber suggestiven Fragen umfassend zu messen, führen wir einen Multimodalen Robustheitsbenchmark (MMR) ein. MMR enthält gepaarte positive und negative Fragen in 12 Kategorien, sorgfältig von Menschen annotiert. Wir bewerten 18 führende MLLMs mit dem MMR-Benchmark und zeigen, dass MLLMs trotz Verständnis des visuellen Inhalts anfällig für suggestive Fragen sind. Zur Verbesserung der Verständniskapazität und Robustheit von MLLMs stellen wir zudem einen Trainingssatz mit gepaarten positiven und negativen visuellen Frage-Antwort-Beispielen bereit. Experimente bestätigen, dass die Robustheit von MLLMs durch Feinabstimmung mit diesem neuen Trainingssatz signifikant verbessert werden kann. Benchmark, Trainingssatz und Code sind verfügbar unter https://github.com/BAAI-DCAI/Multimodal-Robustness-Benchmark.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yexin Liu
Zhengyang Liang
Yueze Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Liu et al. (Sat,) haben diese Frage untersucht.
www.synapsesocial.com/papers/68e649f5b6db6435875da7f7 — DOI: https://doi.org/10.48550/arxiv.2406.10638