Multimodale große Sprachmodelle (MLLMs) haben kürzlich bedeutende Fortschritte bei visuellen Aufgaben erzielt, einschließlich semantischem Szenenverständnis und Text-Bild-Ausrichtung, wobei reasoning-Varianten die Leistung bei komplexen Aufgaben mit Mathematik und Logik verbessern. Ihre Fähigkeiten bei reasoning-Aufgaben, die ein feinkörniges visuelles Verständnis erfordern, sind jedoch bislang unzureichend bewertet. Um diese Lücke zu schließen, stellen wir ReasonMap vor, eine Benchmark zur Bewertung des feinkörnigen visuellen Verständnisses und der räumlichen Reasoning-Fähigkeiten von MLLMs. ReasonMap umfasst hochauflösende Transitkarten aus 30 Städten in 13 Ländern und enthält 1.008 Frage-Antwort-Paare, verteilt auf zwei Fragetypen und drei Vorlagen. Außerdem haben wir eine zweistufige Evaluierung entwickelt, die Antwortkorrektheit und -qualität angemessen bewertet. Umfassende Evaluierungen von 15 populären MLLMs, darunter Basis- und reasoning-Varianten, zeigen ein kontraintuitives Muster: Unter Open-Source-Modellen übertreffen Basismodelle die reasoning-Modelle, während der gegenteilige Trend bei Closed-Source-Modellen beobachtet wird. Zudem verschlechtert sich die Leistung generell, wenn visuelle Eingaben maskiert werden, was zeigt, dass MLLMs zwar Vorwissen nutzen können, um manche Fragen zu beantworten, feinkörnige visuelle Reasoning-Aufgaben jedoch echte visuelle Wahrnehmung für starke Leistung erfordern. Unsere Benchmark-Studie bietet neue Einblicke in das visuelle Reasoning und trägt dazu bei, die Lücke zwischen Open-Source- und Closed-Source-Modellen zu untersuchen.
Building similarity graph...
Analyzing shared references across papers
Loading...
Siyi Feng
Song Wang
Shuyi Ouyang
Building similarity graph...
Analyzing shared references across papers
Loading...
Feng et al. (Sat,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68da58d8c1728099cfd11198 — DOI: https://doi.org/10.48550/arxiv.2505.18675
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: