June 15, 2024Open Access

Klar sehen, falsch antworten: Ein multimodaler Robustheitsbenchmark zur Bewertung von MLLMs bei suggestiven Fragen

Key Points

Key points are not available for this paper at this time.

Abstract

Multimodale Große Sprachmodelle (MLLMs) haben beeindruckende Fähigkeiten im visuellen Verständnis und in der Schlussfolgerung gezeigt und liefern einigermaßen plausible Antworten, wie Bildbeschreibungen. Dies hat umfangreiche Forschungen zur Evaluierung von MLLMs angeregt. Die meisten Evaluierungsbenchmarks gehen davon aus, dass falsche Antworten auf ein mangelndes Verständnis des visuellen Inhalts hinweisen. Unsere Ergebnisse zeigen jedoch, dass MLLMs in vielen Fällen Fragen falsch beantworten, obwohl sie den visuellen Inhalt korrekt verstanden haben. Dies legt nahe, dass falsche Antworten nicht notwendigerweise auf ein fehlendes Verständnis schließen lassen, sondern möglicherweise auf mangelnde Robustheit gegenüber suggestiven Fragen zurückzuführen sind. Um die Verständniskapazität und Robustheit von MLLMs gegenüber suggestiven Fragen umfassend zu messen, führen wir einen Multimodalen Robustheitsbenchmark (MMR) ein. MMR enthält gepaarte positive und negative Fragen in 12 Kategorien, sorgfältig von Menschen annotiert. Wir bewerten 18 führende MLLMs mit dem MMR-Benchmark und zeigen, dass MLLMs trotz Verständnis des visuellen Inhalts anfällig für suggestive Fragen sind. Zur Verbesserung der Verständniskapazität und Robustheit von MLLMs stellen wir zudem einen Trainingssatz mit gepaarten positiven und negativen visuellen Frage-Antwort-Beispielen bereit. Experimente bestätigen, dass die Robustheit von MLLMs durch Feinabstimmung mit diesem neuen Trainingssatz signifikant verbessert werden kann. Benchmark, Trainingssatz und Code sind verfügbar unter https://github.com/BAAI-DCAI/Multimodal-Robustness-Benchmark.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yexin Liu

Zhengyang Liang

Yueze Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Klar sehen, falsch antworten: Ein multimodaler Robustheitsbenchmark zur Bewertung von MLLMs bei suggestiven Fragen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study