Uma nova era desbloqueou possibilidades empolgantes para estender os Grandes Modelos de Linguagem (LLMs) para tarefas de visão-linguagem 3D. No entanto, a maioria dos atuais MLLMs multimodais 3D depende da compressão da informação holística da cena 3D ou da segmentação de objetos independentes para executar essas tarefas, o que limita sua consciência espacial devido à representação insuficiente da riqueza inerente às cenas 3D. Para superar essas limitações, propomos o Spatial 3D-LLM, um MLLM 3D especificamente projetado para aprimorar a consciência espacial em tarefas de visão-linguagem 3D ao enriquecer as embedding espaciais das cenas 3D. O Spatial 3D-LLM integra um backbone LLM com um esquema progressivo de consciência espacial que captura progressivamente as informações espaciais à medida que o campo de percepção se expande, gerando embeddings de cenas 3D enriquecidas com localização para servir como prompts visuais. Além disso, introduzimos duas tarefas inovadoras: medição de distância de objetos 3D e edição de layout 3D, e construímos um conjunto de dados de instruções 3D, MODEL, para avaliar as capacidades de consciência espacial do modelo. Resultados experimentais demonstram que o Spatial 3D-LLM alcança desempenho de ponta em uma ampla gama de tarefas de visão-linguagem 3D, revelando que as melhorias decorrem de nosso esquema progressivo de consciência espacial para minerar informações espaciais mais profundas. Nosso código está disponível em https://github.com/bjshuyuan/Spatial-3D-LLM.
Building similarity graph...
Analyzing shared references across papers
Loading...
Xiaoyan Wang
Z. Y. Li
Yifan Xu
Building similarity graph...
Analyzing shared references across papers
Loading...
Wang et al. (Tue,) estudaram esta questão.
www.synapsesocial.com/papers/68d4759031b076d99fa6d597 — DOI: https://doi.org/10.48550/arxiv.2507.16524
Synapse has enriched 5 closely related papers on similar clinical questions. Consider them for comparative context: