Wir stellen FloorplanQA vor, einen diagnostischen Benchmark zur Bewertung des räumlichen Denkvermögens in großen Sprachmodellen (LLMs). FloorplanQA basiert auf strukturierten Repräsentationen von Innenraumszenen wie Küchen, Wohnzimmern, Schlafzimmern, Badezimmern und anderen, die symbolisch in JSON- oder XML-Layouts codiert sind. Der Benchmark deckt zentrale räumliche Aufgaben ab, darunter Distanzmessung, Sichtbarkeit, Pfadfindung und Objektplatzierung in eingeschränkten Räumen. Unsere Ergebnisse bei einer Vielzahl von führenden Open-Source- und kommerziellen LLMs zeigen, dass Modelle zwar bei oberflächlichen Anfragen erfolgreich sein können, jedoch häufig physikalische Beschränkungen und räumliche Kohärenz nicht einhalten, obwohl sie gegenüber kleinen räumlichen Störungen meist robust bleiben. FloorplanQA deckt eine Schwachstelle heutiger LLMs auf: inkonsistentes Denken über Innenraumlayouts. Wir hoffen, dass dieser Benchmark neue Arbeiten an Sprachmodellen anregt, die räumliche und geometrische Eigenschaften in praxisnahen Umgebungen genau erschließen und manipulieren können.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fedor Rodionov
Abdelrahman Eldesokey
Michael Birsak
Building similarity graph...
Analyzing shared references across papers
Loading...
Rodionov et al. (Thu,) untersuchten diese Fragestellung.
www.synapsesocial.com/papers/68e861b07ef2f04ca37e4ac3 — DOI: https://doi.org/10.48550/arxiv.2507.07644
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: