Introduzimos o FloorplanQA, um referencial diagnóstico para avaliação do raciocínio espacial em grandes modelos de linguagem (LLMs). O FloorplanQA baseia-se em representações estruturadas de ambientes internos, como cozinhas, salas de estar, quartos, banheiros e outros, codificados simbolicamente em layouts JSON ou XML. O referencial cobre tarefas espaciais essenciais, incluindo medição de distância, visibilidade, busca de caminho e posicionamento de objetos em espaços restritos. Nossos resultados, analisando uma variedade de LLMs open-source e comerciais de ponta, revelam que embora os modelos possam ter sucesso em consultas superficiais, eles frequentemente falham ao respeitar restrições físicas e preservar a coerência espacial, embora permaneçam em sua maioria robustos a pequenas perturbações espaciais. O FloorplanQA revela um ponto cego nos LLMs atuais: raciocínio inconsistente sobre layouts internos. Esperamos que este referencial inspire novos trabalhos em modelos de linguagem capazes de inferir e manipular com precisão propriedades espaciais e geométricas em contextos práticos.
Building similarity graph...
Analyzing shared references across papers
Loading...
Fedor Rodionov
Abdelrahman Eldesokey
Michael Birsak
Building similarity graph...
Analyzing shared references across papers
Loading...
Rodionov et al. (Thu,) estudaram esta questão.
www.synapsesocial.com/papers/68e861b07ef2f04ca37e4ac3 — DOI: https://doi.org/10.48550/arxiv.2507.07644
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: