What type of study is this?

This is a Quantitative Study study.

September 30, 2025Open Access

ViewSpatial-Bench: Bewertung der mehrperspektivischen räumlichen Lokalisierung in Vision-Language-Modellen

Key Points

Modelle zeigen erhebliche Leistungsunterschiede bei Betrachtungsaufgaben, wobei sie in egozentrischen Perspektiven glänzen, aber in allozentrischen Perspektiven Schwierigkeiten haben.
Die Bewertung mit ViewSpatial-Bench zeigte eine Leistungsverbesserung von 46,24 % nach Feintuning der VLMs auf mehrperspektivische Aufgaben.
Aktuelle VLMs leisten gute Arbeit aus Kameraperspektive, aber die Genauigkeit sinkt bei Schlussfolgerungen aus menschlicher Sicht.
ViewSpatial-Bench setzt einen neuen Standard zur Bewertung räumlicher Intelligenz in verkörperten KI-Systemen.

Abstract

Vision-Language-Modelle (VLMs) haben bemerkenswerte Fähigkeiten im Verstehen und Schlussfolgern über visuelle Inhalte gezeigt, doch bestehen weiterhin erhebliche Herausforderungen bei Aufgaben, die ein Verständnis aus verschiedenen Blickwinkeln und räumliches Denken erfordern. Wir identifizieren eine kritische Einschränkung: Aktuelle VLMs sind hauptsächlich im egocentrischen räumlichen Denken (aus Perspektive der Kamera) stark, scheitern jedoch daran, zu allocentrischen Blickwinkeln zu generalisieren, wenn sie den räumlichen Bezugsrahmen eines anderen Wesens einnehmen müssen. Wir stellen ViewSpatial-Bench vor, den ersten umfassenden Benchmark, der speziell für die Bewertung der räumlichen Lokalisierung aus mehreren Blickwinkeln entwickelt wurde, bestehend aus fünf unterschiedlichen Aufgabentypen und unterstützt durch eine automatisierte 3D-Annotierungspipeline, welche präzise Richtungslabels generiert. Eine umfassende Evaluation verschiedener VLMs auf ViewSpatial-Bench zeigt eine erhebliche Leistungsdifferenz: Modelle zeigen vernünftige Leistungen bei Aufgaben aus Kameraperspektive, weisen jedoch verringerte Genauigkeit bei der Schlussfolgerung aus menschlicher Sicht auf. Durch Feintuning der VLMs mit unserem mehrperspektivischen räumlichen Datensatz erzielen wir eine Gesamtleistungssteigerung von 46,24 % über alle Aufgaben hinweg, was die Effektivität unseres Ansatzes unterstreicht. Unsere Arbeit etabliert einen entscheidenden Benchmark für räumliche Intelligenz in verkörperten KI-Systemen und liefert empirische Belege dafür, dass die Modellierung von 3D-Raumbeziehungen die entsprechenden räumlichen Verständnisfähigkeiten von VLMs verbessert.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Dingming Li

Hong-Xing Li

Zixuan Wang

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

ViewSpatial-Bench: Bewertung der mehrperspektivischen räumlichen Lokalisierung in Vision-Language-Modellen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider