What type of study is this?

This is a Quantitative Study study.

October 10, 2025Open Access

FloorplanQA: Ein Benchmark für räumliches Denken in LLMs unter Verwendung strukturierter Repräsentationen

Key Points

FloorplanQA offenbart eine Lücke im konsistenten räumlichen Denken großer Sprachmodelle bezüglich Layouts.
Modelle bestehen einfache Anfragen, haben aber Schwierigkeiten mit Einschränkungen wie Objektplatzierung und Sichtbarkeit.
Der Benchmark testet verschiedene räumliche Aufgaben, einschließlich Distanzmessung und Pfadfindung in Innenräumen.
Die Ergebnisse zeigen einen Bedarf an Weiterentwicklungen von Sprachmodellen zur präzisen Erfassung und Manipulation räumlicher Eigenschaften.

Abstract

Wir stellen FloorplanQA vor, einen diagnostischen Benchmark zur Bewertung des räumlichen Denkvermögens in großen Sprachmodellen (LLMs). FloorplanQA basiert auf strukturierten Repräsentationen von Innenraumszenen wie Küchen, Wohnzimmern, Schlafzimmern, Badezimmern und anderen, die symbolisch in JSON- oder XML-Layouts codiert sind. Der Benchmark deckt zentrale räumliche Aufgaben ab, darunter Distanzmessung, Sichtbarkeit, Pfadfindung und Objektplatzierung in eingeschränkten Räumen. Unsere Ergebnisse bei einer Vielzahl von führenden Open-Source- und kommerziellen LLMs zeigen, dass Modelle zwar bei oberflächlichen Anfragen erfolgreich sein können, jedoch häufig physikalische Beschränkungen und räumliche Kohärenz nicht einhalten, obwohl sie gegenüber kleinen räumlichen Störungen meist robust bleiben. FloorplanQA deckt eine Schwachstelle heutiger LLMs auf: inkonsistentes Denken über Innenraumlayouts. Wir hoffen, dass dieser Benchmark neue Arbeiten an Sprachmodellen anregt, die räumliche und geometrische Eigenschaften in praxisnahen Umgebungen genau erschließen und manipulieren können.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Fedor Rodionov

Abdelrahman Eldesokey

Michael Birsak

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

FloorplanQA: Ein Benchmark für räumliches Denken in LLMs unter Verwendung strukturierter Repräsentationen

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider