What type of study is this?

This is a Experimental Study study.

October 19, 2025Open Access

STI-Bench: Sind MLLMs bereit für präzises räumlich-temporales Weltverständnis?

Key Points

Modernste MLLMs haben Schwierigkeiten mit dem räumlich-temporalen Verständnis realer Welt, besonders bei Aufgaben, die präzise Distanzschätzung erfordern.
Umfangreiche Experimente in STI-Bench heben die Grenzen aktueller MLLMs bei der Vorhersage von Objektbewegung und Erscheinungsbild hervor.
End-to-End-Anwendungen in Embodied AI und autonomem Fahren erfordern verbesserte räumlich-temporale Intelligenz von MLLMs.
Die Benchmark-Aufgaben in verschiedenen Szenarien offenbaren kritische Lücken in der räumlich-temporalen Leistung von MLLMs.

Abstract

Der Einsatz von Multimodalen Large Language Models (MLLMs) als End-to-End-Lösung für Embodied AI und autonomes Fahren hat sich als vorherrschender Trend etabliert. Während MLLMs umfangreich für Aufgaben des visuellen semantischen Verständnisses untersucht wurden, bleibt ihre Fähigkeit, präzises und quantitatives räumlich-temporales Verständnis in realen Anwendungen zu erfüllen, weitgehend unerforscht, was zu unsicheren Aussichten führt. Um die räumlich-temporale Intelligenz der Modelle zu bewerten, führen wir STI-Bench ein, ein Benchmark, das das räumlich-temporale Verständnis von MLLMs durch anspruchsvolle Aufgaben wie die Schätzung und Vorhersage des Erscheinungsbilds, der Pose, Verschiebung und Bewegung von Objekten evaluiert. Unser Benchmark umfasst eine breite Palette von Roboter- und Fahrzeugoperationen in Desktop-, Innen- und Außen-Szenarien. Die umfangreichen Experimente zeigen, dass die derzeit fortschrittlichsten MLLMs im realen räumlich-temporalen Verständnis immer noch Schwierigkeiten haben, insbesondere bei Aufgaben, die eine präzise Distanzschätzung und Bewegungsanalyse erfordern.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Yun Li

Yiming Zhang

Tao Lin

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

STI-Bench: Sind MLLMs bereit für präzises räumlich-temporales Weltverständnis?

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider