Der Einsatz von Multimodalen Large Language Models (MLLMs) als End-to-End-Lösung für Embodied AI und autonomes Fahren hat sich als vorherrschender Trend etabliert. Während MLLMs umfangreich für Aufgaben des visuellen semantischen Verständnisses untersucht wurden, bleibt ihre Fähigkeit, präzises und quantitatives räumlich-temporales Verständnis in realen Anwendungen zu erfüllen, weitgehend unerforscht, was zu unsicheren Aussichten führt. Um die räumlich-temporale Intelligenz der Modelle zu bewerten, führen wir STI-Bench ein, ein Benchmark, das das räumlich-temporale Verständnis von MLLMs durch anspruchsvolle Aufgaben wie die Schätzung und Vorhersage des Erscheinungsbilds, der Pose, Verschiebung und Bewegung von Objekten evaluiert. Unser Benchmark umfasst eine breite Palette von Roboter- und Fahrzeugoperationen in Desktop-, Innen- und Außen-Szenarien. Die umfangreichen Experimente zeigen, dass die derzeit fortschrittlichsten MLLMs im realen räumlich-temporalen Verständnis immer noch Schwierigkeiten haben, insbesondere bei Aufgaben, die eine präzise Distanzschätzung und Bewegungsanalyse erfordern.
Building similarity graph...
Analyzing shared references across papers
Loading...
Yun Li
Yiming Zhang
Tao Lin
Building similarity graph...
Analyzing shared references across papers
Loading...
Li et al. (Mon,) haben diese Fragestellung untersucht.
www.synapsesocial.com/papers/68f4b10d3d9d770bbc696d56 — DOI: https://doi.org/10.48550/arxiv.2503.23765
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: