September 29, 2025Open Access

Können MLLMs mich nach Hause führen? Eine Benchmark-Studie zum feinkörnigen visuellen Denken anhand von Transitkarten

Key Points

Feinkörniges visuelles Reasoning in multimodalen großen Sprachmodellen ist unzureichend evaluiert, was Verbesserungsmöglichkeiten aufzeigt.
Umfassende Bewertungen von 15 populären Modellen zeigen, dass Basismodelle in Open-Source-Umgebungen besser abschneiden als Reasoning-Modelle.
Die Benchmark verwendet hochauflösende Transitkarten verschiedener Städte zur Bewertung visuellen Verständnisses und Reasonings.
Die Evaluierung zeigt, dass das Maskieren visueller Eingaben die Leistung verschlechtert, was die Bedeutung echter visueller Wahrnehmung betont.

Abstract

Multimodale große Sprachmodelle (MLLMs) haben kürzlich bedeutende Fortschritte bei visuellen Aufgaben erzielt, einschließlich semantischem Szenenverständnis und Text-Bild-Ausrichtung, wobei reasoning-Varianten die Leistung bei komplexen Aufgaben mit Mathematik und Logik verbessern. Ihre Fähigkeiten bei reasoning-Aufgaben, die ein feinkörniges visuelles Verständnis erfordern, sind jedoch bislang unzureichend bewertet. Um diese Lücke zu schließen, stellen wir ReasonMap vor, eine Benchmark zur Bewertung des feinkörnigen visuellen Verständnisses und der räumlichen Reasoning-Fähigkeiten von MLLMs. ReasonMap umfasst hochauflösende Transitkarten aus 30 Städten in 13 Ländern und enthält 1.008 Frage-Antwort-Paare, verteilt auf zwei Fragetypen und drei Vorlagen. Außerdem haben wir eine zweistufige Evaluierung entwickelt, die Antwortkorrektheit und -qualität angemessen bewertet. Umfassende Evaluierungen von 15 populären MLLMs, darunter Basis- und reasoning-Varianten, zeigen ein kontraintuitives Muster: Unter Open-Source-Modellen übertreffen Basismodelle die reasoning-Modelle, während der gegenteilige Trend bei Closed-Source-Modellen beobachtet wird. Zudem verschlechtert sich die Leistung generell, wenn visuelle Eingaben maskiert werden, was zeigt, dass MLLMs zwar Vorwissen nutzen können, um manche Fragen zu beantworten, feinkörnige visuelle Reasoning-Aufgaben jedoch echte visuelle Wahrnehmung für starke Leistung erfordern. Unsere Benchmark-Studie bietet neue Einblicke in das visuelle Reasoning und trägt dazu bei, die Lücke zwischen Open-Source- und Closed-Source-Modellen zu untersuchen.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Siyi Feng

Song Wang

Shuyi Ouyang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Können MLLMs mich nach Hause führen? Eine Benchmark-Studie zum feinkörnigen visuellen Denken anhand von Transitkarten

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider