Vision-Language-Modelle (VLMs) haben bemerkenswerte Fähigkeiten im Verstehen und Schlussfolgern über visuelle Inhalte gezeigt, doch bestehen weiterhin erhebliche Herausforderungen bei Aufgaben, die ein Verständnis aus verschiedenen Blickwinkeln und räumliches Denken erfordern. Wir identifizieren eine kritische Einschränkung: Aktuelle VLMs sind hauptsächlich im egocentrischen räumlichen Denken (aus Perspektive der Kamera) stark, scheitern jedoch daran, zu allocentrischen Blickwinkeln zu generalisieren, wenn sie den räumlichen Bezugsrahmen eines anderen Wesens einnehmen müssen. Wir stellen ViewSpatial-Bench vor, den ersten umfassenden Benchmark, der speziell für die Bewertung der räumlichen Lokalisierung aus mehreren Blickwinkeln entwickelt wurde, bestehend aus fünf unterschiedlichen Aufgabentypen und unterstützt durch eine automatisierte 3D-Annotierungspipeline, welche präzise Richtungslabels generiert. Eine umfassende Evaluation verschiedener VLMs auf ViewSpatial-Bench zeigt eine erhebliche Leistungsdifferenz: Modelle zeigen vernünftige Leistungen bei Aufgaben aus Kameraperspektive, weisen jedoch verringerte Genauigkeit bei der Schlussfolgerung aus menschlicher Sicht auf. Durch Feintuning der VLMs mit unserem mehrperspektivischen räumlichen Datensatz erzielen wir eine Gesamtleistungssteigerung von 46,24 % über alle Aufgaben hinweg, was die Effektivität unseres Ansatzes unterstreicht. Unsere Arbeit etabliert einen entscheidenden Benchmark für räumliche Intelligenz in verkörperten KI-Systemen und liefert empirische Belege dafür, dass die Modellierung von 3D-Raumbeziehungen die entsprechenden räumlichen Verständnisfähigkeiten von VLMs verbessert.
Building similarity graph...
Analyzing shared references across papers
Loading...
Dingming Li
Hong-Xing Li
Zixuan Wang
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Tue,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68dc12cc8a7d58c25ebb0c0d — DOI: https://doi.org/10.48550/arxiv.2505.21500
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: