What type of study is this?

This is a Experimental Study study.

September 23, 2025Open Access

Spatial 3D-LLM: Explorando a Consciência Espacial em Modelos 3D Vision-Language

Key Points

Spatial 3D-LLM alcança desempenho de ponta em tarefas de visão-linguagem 3D, aprimorando a consciência espacial.
Resultados experimentais indicam resultados superiores em tarefas de medição de distância de objetos 3D e edição de layout.
A metodologia integra um backbone LLM com um esquema progressivo de consciência espacial para melhor compreensão de cenas 3D.
Esta pesquisa enfatiza a importância das embedding espaciais enriquecidas para desempenho aprimorado em tarefas multimodais 3D.

Abstract

Uma nova era desbloqueou possibilidades empolgantes para estender os Grandes Modelos de Linguagem (LLMs) para tarefas de visão-linguagem 3D. No entanto, a maioria dos atuais MLLMs multimodais 3D depende da compressão da informação holística da cena 3D ou da segmentação de objetos independentes para executar essas tarefas, o que limita sua consciência espacial devido à representação insuficiente da riqueza inerente às cenas 3D. Para superar essas limitações, propomos o Spatial 3D-LLM, um MLLM 3D especificamente projetado para aprimorar a consciência espacial em tarefas de visão-linguagem 3D ao enriquecer as embedding espaciais das cenas 3D. O Spatial 3D-LLM integra um backbone LLM com um esquema progressivo de consciência espacial que captura progressivamente as informações espaciais à medida que o campo de percepção se expande, gerando embeddings de cenas 3D enriquecidas com localização para servir como prompts visuais. Além disso, introduzimos duas tarefas inovadoras: medição de distância de objetos 3D e edição de layout 3D, e construímos um conjunto de dados de instruções 3D, MODEL, para avaliar as capacidades de consciência espacial do modelo. Resultados experimentais demonstram que o Spatial 3D-LLM alcança desempenho de ponta em uma ampla gama de tarefas de visão-linguagem 3D, revelando que as melhorias decorrem de nosso esquema progressivo de consciência espacial para minerar informações espaciais mais profundas. Nosso código está disponível em https://github.com/bjshuyuan/Spatial-3D-LLM.

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Discussion

Authors

Xiaoyan Wang

Z. Y. Li

Yifan Xu

Actions

References and Citations

Connected Papers

Building similarity graph...

Analyzing shared references across papers

Spatial 3D-LLM: Explorando a Consciência Espacial em Modelos 3D Vision-Language

Key Points

Abstract

Citation Network

Connected Papers

Discussion

Authors

Actions

References and Citations

Citation Network

Connected Papers

Discussion

Cite this study

Also consider